"歐洲版OpenAI"Mistral創始人:長文本正在取代RAG 的優勢_風聞
乌鸦智能说-4分钟前
3月21日,在Figma的組織之下,硅谷投資人Elad Gil與法國AI創業公司Mistral CEO Arthur Mensch進行了一場爐邊談話。
Mistral在成立之初僅有6人,在尚未有產品推出時就憑7頁PPT拿下8億人民幣種子輪融資,被法國媒體譽為“歐洲版OpenAI”,並得到法國總統的認可。
成立以來,Mistral推出了多款語言模型,其中Mistral-7B在基準測試中表現優異,被認為是目前最強的開源大語言模型之一。此外,Mistral AI還發布了Mixtral8x7B模型,展示了其在模型開發和優化方面的實力和潛力。
在本次對談中,Elad Gil以其精準的投資者眼光,從Mistral的開源運行方式、ToB業務選擇、專注歐洲市場等企業特色切入,與Arthur Mensch展開探討,如Mistral 的發展過程及未來業務規劃、模型訓練的方式、AI監管及在企業服務領域的落地問題以及全球市場的選擇等。
/ 01 / 小團隊初創四月超越Llama
Elad Gil:從背景上看,你有機器學習的博士學位,是DeepMind的資深研究科學家。Mistral公司成員不僅來自谷歌,也有來自Meta和Llama項目的人員。你們採取了開源的方式,這種方式很有意思,我們後面可以聊一聊。能先談談創立Mistral公司的契機和動機嗎?是什麼促使你們決定創辦這家公司?
Arthur Mensch: 我和Timothée一直有這個想法。當時他在Meta,我在DeepMind工作。ChatGPT的出現讓我們意識到有機會創辦一家人工智能公司。我們可以很快招聘到一個出色的團隊,儘管我們不是第一家,但可以加速一些進程。
Elad Gil: 大多數觀看直播的人可能不太瞭解Mistral公司,您能簡單介紹一下公司的產品、平台和各個組成部分嗎?
Arthur Mensch: **我們實際上是一家專注於構建基礎模型的公司。我們是開源模型領域的領導者。**我們之所以創立公司,是從構建文本到文本生成模型開始的,這實際上是創建當下通用虛擬助理應用的基礎構件。我知道我們現在在Figma組織的活動,我們暫時還沒有專注於圖像領域,但這顯然是遲早會做的工作。
**我們與眾不同的地方在於,我們採取了開源核心的方式,**在12月份發佈了7B模型,並在這些開源模型的基礎上構建了一個平台,同時也在12月和2月分別推出了一些商業模型。所以我們一方面在打造開源模型,另一方面也在為企業構建一個可移植的平台,重點關注開發者,為開發者構建工具。
Elad Gil: 從公司創立到推出7B模型,歷時多久?
Arthur Mensch: 大約4個月左右。
Elad Gil: 能分享一下你們是如何如此迅速地推出第一款產品,並使之獲得快速採用的嗎?團隊是如何集中精力實現這一個別具一格的目標的?
Arthur Mensch: 我們思考了當前這個領域缺失了什麼,意識到小型模型對人們很有吸引力。當時人們正在基於Llama 7B模型進行嘗試,但Llama 7B還不夠好。所以我們意識到自己可以做得更好,7B模型可以做得更好,這就是我們着力的切入點。
基本上我們不得不從零開始構建整個技術棧,包括獲取數據、編寫訓練代碼、獲取計算資源。在這4個月裏,我們一直在逐步擴大計算力,起初是0個GPU,後來實際上是在500個GPU上訓練出7B模型。我們之所以進展如此迅速,是因為團隊動力十足,在這4個月裏幾乎沒有休息日。
**一般來説,成功的AI團隊通常只有4到5人,發明創新的AI團隊規模向來如此。**所以我們試圖打造這樣一個組織結構,有5人小分隊專注於數據、預訓練等工作,到目前為止,這種模式運作得很好。
Elad Gil: 你們的路線圖上還有哪些新產品和功能?
Arthur Mensch: **我們會推出新的開源模型,包括通用型和垂直領域型模型,**這工作正在緊鑼密鼓地進行中。**我們還會為平台引入一些新的微調功能。我們最近推出了一款名為Le Chat的基於對話的助理,**目前它只是在使用基礎模型,相當於ChatGPT最初的版本。我們正在積極開發數據連接器和功能增強,旨在為企業提供一個有吸引力的解決方案。
Elad Gil: 你們計劃關注哪些垂直領域?或者能透露一些嗎?
Arthur Mensch: 我們最初是從金融服務行業切入的,因為這個領域比較成熟。基本上我們瞄準兩大目標市場,一是企業客户,從金融服務行業開始,因為它比較成熟;二是數字化公司和開發者,比如正在創辦AI公司或者將AI引入傳統非AI公司的公司。通過與雲服務商建立合作關係,我們可以接觸到企業客户羣體,因為他們在這一領域掌控着一定市場;而通過我們自己的平台,我們則直接面向開發者。
Elad Gil: 您最近宣佈與微軟和Azure達成了合作關係,能透露一些相關內容嗎?這為你們開放了哪些企業級市場?
Arthur Mensch: 這為我們開闢了新的客户羣體。很多企業難以直接採用第三方服務提供商的產品,因為他們需要經過採購、風險評估等流程。但如果是通過雲服務商的渠道作為第三方,則可以加快進程。事實上,當我們在Azure上線產品時,我們立即獲得了1000多家企業客户。這説明了我們需要適應企業目前廣泛採用雲服務的現狀,他們不願輕易引入新平台,所以起步時確實需要通過雲服務商的渠道。
/ 02 / Mistral的模型發展計劃
Elad Gil: 目前業界的重點是擴大模型規模,追求越來越大、性能越來越好的版本。**在接下來的6個月或1年裏,你們的目標模型規模是什麼?**是否有計劃長期構建超大型模型?你們是如何考慮要提供的各種模型組合的?
Arthur Mensch: 我們起初的關注點是效率,以更高效的方式訓練模型,甚至比當前的做法更高效。一旦我們實現了高效率,我們就開始擴大規模。這就是為什麼我們進行了另一輪融資,並開始增加我們的計算力。
所以我們可以期待看到新的更強大的模型,因為我們投入了更多的計算資源。這些模型的規模可能會略有增加,因為當計算量增長時,你需要相應地增加模型容量。但對我們來説,保持高效的推理能力,並擁有高度壓縮的模型仍然非常重要,這種模型將繼續面向開源世界提供。
Elad Gil: 有人指出,當模型達到某些能力時,你就可以加快構建下一個模型的步伐,因為你可以利用例如GPT-4級別的模型來做數據反饋或生成合成數據,或執行其他一些真正加速工作流程的事情,比如數據標註等各種任務,在某些情況下甚至可以達到超人水平。你是如何看待利用模型來相互幫助提升,這是否實際上加快了每個後續版本的發佈時間線?
Arthur Mensch: 我想總的來説,兩年前數據反饋確實非常重要,但如今已經沒那麼重要了,因為模型變得越來越好,有時候足以自我監督自己。正如我們所注意到的,隨着模型規模的擴大,這種情況確實在持續改善。這意味着通過人工註釋的高成本部分實際上正在減少,從而也降低了進入門檻。
Elad Gil: 關於推理能力的發展,你們有何考慮?是否會專門訓練用於推理的子模型,還是認為推理能力將隨着模型規模的擴大而自然獲得?或者兩者兼而有之?
Arthur Mensch: 目前提高推理能力的唯一可靠方式,是在更大的數據集上訓練更大的模型。通過構建外部循環、添加新的函數調用、提供更多讓模型進行推理所需的數據,也有一些可能性,而不是讓模型憑空想象。所以我們並不自詡擁有什麼提高推理能力的秘密配方,而是通過關注數據,尤其是涵蓋數學內容的數據,從而打造出具備相當推理能力的模型。代碼數據也有所助益。總之沒有什麼魔法配方,只是專注於一些小細節就能奏效。
Elad Gil: 我之所以這樣問,是因為在人工智能的發展歷史上,似乎存在兩種不同的方法。一種是基於Transformer的模型並將其擴大規模;另一種是像AlphaGo和撲克遊戲那樣,通過自我對弈的方式來自舉例獲得新的策略或能力,在某種程度上也是一種推理形式。在模型訓練的背景下,或許會很自然地採用後一種方式,比如使用代碼數據,或者針對真實的評估標準進行測試。所以我不知道你們是否也在考慮這種方式,或者它在你們看來是否重要?
Arthur Mensch: 在Meta工作時,Guillaume和Timothée 就曾嘗試過使用大語言模型來做定理證明,這與將大語言模型作為推理單元,然後在外部構建採樣循環、進行多指標研究等有着緊密聯繫。當時制約這一方向的一個因素是,模型的時延很高,如果你想大量採樣,就需要縮小模型規模,所以這個問題與效率息息相關。隨着我們提高效率,硬件能力和模型容量也會增長,這樣就能探索更多可能性,更充分地採樣,最終通過外部開發來提高推理能力。
Elad Gil: 還有很多人在討論記憶和跨動作、代理鏈式連接時保持更長狀態視角的能力問題。你們是否會很快着手構建某種代理模型,還是更多關注為各種應用賦能的核心API?
Arthur Mensch: 我們確實嘗試通過函數調用來支持這一點,這是管理和創建具有狀態存儲能力的代理模型的一種好方式。比如在對話記憶方面,你可以在中間件層引入一些基本函數,提供給模型使用,讓它能夠基於此更新內存和表示。所以函數調用是一種通用工具,可用於創建複雜的設置和複雜的代理模型。不過要讓它正常工作並加以評估都是一個巨大的挑戰。我認為這將是我們在產品端需要應對的最大挑戰之一,即如何構建出行之有效、經得起評估、反饋優化的代理模型。
Elad Gil: 最近很多人在討論上下文窗口的重要性,比如針對生物學模型,如果擴大上下文窗口,就能獲得更好的蛋白質摺疊結果等。上下文確實至關重要。我知道Gemini推出了最多可達幾百萬的上下文窗口,你覺得這個特性有多重要?它是否會取代RAG或微調技術?或者説這些技術未來都將並行使用?
Arthur Mensch: **上下文窗口不會取代微調,因為微調有完全不同的目的,即灌輸你的任務偏好和示範任務本身。但大的上下文窗口確實會簡化RAG等技術,因為你可以將更多知識注入上下文中。**而且用户反饋是,一旦使用了大上下文窗口的模型,就很難回頭了,這簡直就像一種"毒品"。所以我們當然希望繼續改進和擴展這個特性。從基礎設施角度來看,處理大尺寸的注意力矩陣確實是一個挑戰,但也有一些變通方法。
Elad Gil: 你認為推理能力的提升會通過傳統的基於GPU的方式實現,還是我們會開始看到越來越多針對特定Transformer模型的定製芯片,將權重燒錄在芯片上?或者更普遍地針對Transformer架構,只需加載預設權重?
Arthur Mensch: Transformer架構被廣泛使用的一個好處是,你可以針對這種架構專門定製硬件,在這方面可以獲得很大的性能提升。比如在英偉達芯片上,內存帶寬就是一個不幸的瓶頸,通過轉向更多定製化芯片,你就可以顯著降低推理成本。目前定製化芯片還沒有做好準備,所以我們暫時不會在這方面下注。但我確實預計,這將顯著提高成本效益。
/ 03 / AI模型在企業服務方面的應用
Elad Gil: Mistral最初是一款面向開發者的產品,採用了開源方式。但現在你們開始為各種企業服務,在企業採用這種技術和方法時,使用案例或應用領域是否存在什麼共性?
Arthur Mensch: 是的,企業主要有三種常見的使用案例。第一是開發者生產力,因為現成的方案與他們的開發方式不太契合,通常需要一些掙扎。第二是知識管理工具,企業通常會構建自己的知識庫助手。最後是客户服務,很多企業都在大力推進自動化,以減少人工服務,提高效率,這確實是非常有前景的領域。而對於AI公司來説,使用案例就更加多樣化了,因為他們在這方面更有創造力。總的來説,企業目前還是集中在這三個領域。這也是為什麼我們開始考慮上移價值鏈,提供更多一體化解決方案的原因,因為企業有時確實需要一些幫助。
Elad Gil: 這確實説得通。我猜很多人都看到了Klarna的CEO的那條推文,講到他們如何在自助客户服務領域添加了一系列工具,基本上減少了700個客服人員,在短短一個月內就獲得了230萬個響應。所以我覺得,這種對生產力和就業的衝擊確實是一個目前被低估的巨大浪潮。
Arthur Mensch: 是的,我們看到了更多不同的使用案例。其中有一個是建立了一個平台,通過短信與臨時工試圖為他們匹配工作。之前客户需要150個人與客户直接互動,但現在只需7個人就能大規模支撐平台運營,讓臨時工更容易獲得工作機會。總的來説,客户服務自動化確實有助於提升服務質量,這是這項技術最令人興奮的地方。
Elad Gil: 你認為現在還缺少什麼,會阻礙企業加速採用這種技術?
Arthur Mensch: 我們的賭注是,企業仍在努力評估和驗證模型是否真的可以投入生產使用。目前缺少的是一些持續集成的工具,以及自動證明任何大語言模型使用案例的工具。所以我覺得這些對於企業內部開發者來説是缺失的部分。而對於企業內部的終端用户來説,我們離真正能創建出遵循指令良好、可由用户輕鬆定製的助手還有相當一段距離,這才是目前的短板所在。
Elad Gil: 我覺得你一直非常審慎地思考人工智能的監管問題。我知道你曾參與過關於歐盟監管及其他人工智能監管的一些討論。你能解釋一下你的觀點嗎?當下和未來我們應該關注哪些重點,以及如何更廣泛地看待這個問題?
Arthur Mensch: 是的,當時10月份出現了一股反對開源人工智能的浪潮,所以我們不得不站出來解釋,開源實際上是確保這項技術安全可靠、經過評估的正確途徑。我們一直在重申,人們將不同層面的話題混為一談,比如模糊定義且缺乏科學證據的存在風險。再比如將國家安全與人工智能、大語言模型被用於生產生化武器等問題混淆,但後者同樣缺乏證據。**我們應該關注的是一些非常重要的實際問題,比如如何實際部署模型並控制其輸出、如何處理偏見、如何設定模型的語調並加以評估和控制等。**我認為這才是最重要的部分,即如何構建可靠、可控、可評估的安全產品,這也是過去幾個月來我們一直強調的重點,因為我們不得不發聲。
/ 04 / AI發展的地緣分析
Elad Gil: 歐洲現在初創公司蓬勃發展,尤其是人工智能領域。巴黎-倫敦走廊和硅谷是目前兩大 AI 初創公司聚集地。您認為是什麼因素推動了這一發展?
Arthur Mensch: 倫敦擁有 DeepMind 公司,它一直以來都非常吸引全球頂尖人才。2018 年,DeepMind 和 Google 在巴黎開設了研究辦公室,進一步增強了當地的研究實力。法國和其他一些歐盟國家擁有優質的教育體系,培養出優秀的人工智能工程師和科學家,這也是歐洲擁有強大基礎模型和應用層公司生態系統的原因之一。
Elad Gil: 您在全球範圍內發佈了 Mistral 模型,涵蓋多種歐洲語言。其他公司也正在針對日本、印度等地開發語言模型。您認為未來會出現大型全球平台公司(除了中國,因為中國可能像對待互聯網一樣進行防火牆管制),還是會出現區域性冠軍,類似於波音和空中客車?
Arthur Mensch: 我們採取了全球化發佈策略。僅僅侷限於歐洲市場並不可取,因為技術是流動的。我們所構建的技術與語言緊密相關,雖然英語是眾多語言中的一種,但大型語言模型對英語的掌握優於其他語言。因此,我們計劃通過專注於歐洲語言,開發出優於美國公司所開發模型的產品,這在歐洲市場有巨大潛力。亞洲市場也需要能理解亞洲語言的模型,解決這些市場的科學難題需要大量投入,而美國公司對此並不關注。因此,作為一家歐洲公司,我們有機會更關注全球市場。
