Andrej Karpathy最新採訪:AI仍處在模仿階段，離自主學習還很遠_風聞

乌鸦智能说-45分钟前

2024-03-28

在紅杉資本2024年的AI Ascent上，Andrej Karpathy與紅杉資本合夥人Stephanie Zhan深入探討了AI的未來發展方向和對初創企業生態系統的影響。Andrej Karpathy曾是OpenAI創始成員、前特斯拉人工智能高級總監。

在Andrej看來，Llama 和 Mistral 並不算真正意義上的開源，更像是一個二進制文件。同時，Andrej分享了他與埃隆·馬斯克共事的經驗，揭示了馬斯克獨特的管理風格和對小而精技術團隊的偏好。他還討論了AI技術的現狀，指出目前AI仍處於模仿學習的初級階段，距離實現強化學習的目標還有一段距離。

在與觀眾的互動環節中，他回答了關於模型合成、企業理念、以及如何平衡性能與成本的問題，並強調當下的AI發展應先追求大模型性能，再考慮降低成本。

一、LLMOS：免費、高效的的 LLM API平台

二、馬斯克的企業理念：小而精的技術團隊

三、初創公司：讓AI生態充滿活力

四、AI界的研究生院：Reinforcement Learning強化學習

五、開源，讓AI觸手可及

/ 01 / LLM OS：免費、高效的的 LLM API平台

Stephen Zhan：Andrej，您如何看待AGI在未來的前景？

Andrej Karpathy：幾年前，我還不清楚 AGI 會如何發展。它非常學術化，你需要思考不同的方法。而現在，我覺得它非常清晰，有很多空間，每個人都在努力去填補。因此，需要進行大量的優化。

粗略地説，現在的情況是，每個人都在努力構建我所説的 LLmOS，為開發人員提供免費、快速的 LLM API。它像一個操作系統，可以把一堆外設插入這個新的 CPU 或類似的東西。當然，這些外設包括文本、圖像、音頻和所有模式。然後是中央處理器，也就是 LLM 變壓器本身。然後，它還與我們已經建立起來的所有軟件1.0 基礎設施相連。因此，我認為每個人都在努力構建類似的東西，然後將其作為可定製的東西提供給經濟領域的各個角落。

這大致就是我們的方向。我們可以給相對獨立的AI代理分配高級任務，並以各種方式進行專業化。這將是非常有趣和令人興奮的。這不僅僅是一個代理。而是許多代理。

Stephen Zhan：我想談談一些在場都關心的事，那就是 OpenAI 正在主導生態系統。今天在座的大多數聽眾都是創始人，他們正試圖開闢一個小天地，祈禱OpenAI不會在一夜之間將他們淘汰出局。你認為其他參與者在哪些領域有機會建立新的獨立公司？而OpenAI會在哪些領域繼續佔據主導地位？

Andrej Karpathy：OpenAI基本上是在試圖建立LLmOS。我認為，正如我們今天早些時候聽到的那樣，它正試圖開發這個平台，在這個平台之上，你可以定位不同垂直領域的不同公司。現在，我認為操作系統的比喻也非常有趣。

因為當你看到像 Windows的操作系統，它會自帶一些默認應用程序，比如Edge 瀏覽器。所以，OpenAI 或其他大模型公司也會以同樣的方式推出一些默認應用程序，但這並不意味着你可以在其上運行不同的瀏覽器，就像你可以在該基礎設施上運行不同的聊天代理一樣。因此，會有一些默認應用程序，但也可能會有一個由各種應用程序組成的充滿活力的基礎設施生態系統，這些應用程序會根據經濟的不同角落進行微調。我很喜歡早期 iPhone 應用程序的比喻，它們看起來就像笑話。

這需要時間來發展，我想我絕對同意，我們現在正經歷着同樣的事情。人們正試圖弄明白，這東西到底擅長什麼？它不擅長什麼？我該如何使用它？如何編程？如何調試？我怎樣才能讓它真正執行實際任務，以及怎樣對它進行監督？評估是什麼樣的？有很多事情需要思考，也需要了解其中的心理學原理。我認為，這需要一些時間來弄清如何與這一基礎設施協同工作。我們會在未來幾年看到這一點。

Stephen Zhan：現在正在進行的是LLMs領域 OpenAI、Anthropic、Mistral、Llama、Gemini 的競賽。開源模型的整個生態系統現在已經成為小型模型的長尾。你如何預見生態系統的未來？

Andrej Karpathy：這和操作系統很像，因為電腦的操作系統也被寡頭壟斷了，比如 Windows、Mac OS 等。我認為，大模型也許未來會出現類似的情況。

**在我看來，你列舉的許多產品，如 Llama 和 Mistral 等不算是開源。**他們有點像折騰操作系統的二進制文件，當你只是得到一個二進制文件時，當然會更好，因為你可以 finetune 模型，這是有用的，但這有點微妙，但你不能完全 finetune 模型，因為你 finetune 模型越多，它就越可能在其他方面退化。

如果你想要增加能力，而不是迴歸其他能力，可能就需要在以前的數據集分佈和新的數據集分佈的某種混合物上進行訓練。因為你不想回歸舊的分佈，你只想增加知識。如果只給你權重，實際上是做不到的。你需要訓練循環，需要數據集等等。因此，在如何使用這些模型方面，你實際上受到了限制。再説一遍，我認為這絕對是有幫助的，但我認為我們幾乎需要更好的語言來描述它。所以有開放權重模型、開源模型和專有模型，我想，這可能就是生態系統。是的，它很可能會和我們現在的系統非常相似。

Stephen Zhan：我想談談另外一個大家都關心的問題，那就是規模。簡單地説，規模似乎就是一切。數據規模、計算規模，因此大型研究實驗室、大型科技巨頭如今擁有巨大的優勢。你對此有何看法？這就是最重要的嗎？如果不是，還有什麼是重要的？

Andrej Karpathy：規模絕對是第一位的。我確實認為有一些細節需要處理好，蔽日數據集的準備工作就很重要，要做得非常好、非常乾淨，等等。這些都是你可以獲得的計算效率提升。因此，數據、算法，當然還有模型的訓練，以及使其真正大型化。因此，我認為規模將是主要決定因素。它就像事物的第一主要組成部分，但還有許多其他事情需要你去正確處理。因此，規模幾乎就像設定了某種速度限制，但你確實需要一些其他的東西，但就像如果你沒有規模，那麼如果你要訓練模型，從根本上説，你就無法訓練這些龐大的模型。如果你只是要做微調之類的工作，那麼我認為也許規模較小是必要的，但我們還沒有真正看到這一點完全發揮出來。

Stephen Zhan：你能分享更多你認為也很重要，但優先級較低的因素嗎？

Andrej Karpathy：首先，**你不能只是訓練這些模型。如果只給你錢和規模，實際上還是很難建立這些模型。**部分原因是基礎設施還很新，還在開發中，還沒有完全到位。但大規模訓練這些模型極其困難，是一個非常複雜的分佈式優化問題。實際上，現在這方面的人才相當稀缺。它基本上會變成一個在數以萬計的 GPU 上運行的瘋狂的東西。所有的 GPU 都會在不同的時間點隨機失效。

因此，對其進行檢測並使其正常工作實際上是一項極其艱鉅的挑戰。直到最近，GPU 才打算用於 10,000 GPU 的工作負載。因此，我認為很多基礎架構都在這種壓力下吱吱作響。我們需要解決這個問題。但現在，如果你只是給別人一大筆錢、一大堆規模或 GPU，我不認為他們就能生產出這樣的模型，這就是為什麼這不僅僅是規模的問題。實際上，你需要大量的專業知識，包括基礎設施方面、算法方面，以及數據方面和謹慎處理數據方面。因此，我認為這些都是主要的組成部分。

Stephen Zhan：生態系統發展如此迅速。幻覺、語境窗口、多模態能力、推理變得更好、更快、更便宜。當今有哪些大語言模型的研究挑戰讓您徹夜難眠？你認為哪些問題既迫在眉睫，又可以迎刃而解，我們還可以繼續探索？

Andrej Karpathy：在算法方面，我正在思考的一件事是擴散模型和自迴歸模型之間的明顯區別。它們都是表示概率分佈的方法。而事實證明，不同的模式顯然更適合這兩種模式中的一種。可能有一些空間可以將它們統一起來，或者以某種方式將它們連接起來，同時獲得一些兩全其美的方法，或者找出我們如何能獲得一種混合架構等等。

令我感到有些奇怪的是，在模型的空間裏，我們有兩個不同的點，它們都非常好，但中間卻什麼都沒有，這讓我覺得很不對勁。因此，我認為我們會看到這種情況的出現。另外，我還想説的是，在運行這些東西的能量效率上，還有很大的差距。

就運行這些模型的效率而言，我們可能差了一千到一百萬倍。當然，我認為部分原因是我們設計的計算機並不適合這種工作負載。我認為，英偉達在這個方向上邁出了很好的一步，因為你需要極高的並行性。實際上，我們並不關心以某種方式依賴數據的順序計算。我們只需要在許多不同的數組元素或其他東西上執行相同的算法。因此，我認為第一條就是讓計算機架構適應新的數據工作流。

第二點是推動我們目前看到的一些改進。第一項精度，我們看到精度從最初的雙倍 64 位下降到現在的四位、五位、六位，甚至 1 位。現在已經降到了，我不知道是多少，4、5、6，甚至 1.58，這取決於你讀的是哪篇論文。因此，精確度是第一個重要槓桿。

然後第二個當然是稀疏性，這也像另一個重要差距。你的大腦並不總是完全激活，稀疏性是另一個重要的槓桿。我也覺得馮-諾依曼架構的計算機，以及它們是如何構建的，以及它們在穿梭數據進出，在內存和進行所有計算的內核之間進行大量的數據移動。

這都是有問題的，因為你的大腦不是這樣工作的，這也是它如此高效的原因。所以我認為，在計算機架構領域，這將是一個非常激動人心的時刻。我不是計算機架構師，但我覺得，我們好像差了一百萬倍，一千到一百萬，差不多吧，應該會有令人興奮的創新來降低誤差。

/ 02 / 馬斯克的企業理念：小而精的技術團隊

Stephen Zhan：在場或許有幾位算法工程師在研究這個問題。換個話題，你曾與AI界許多知名人物共事。比如，埃隆-馬斯克和OpenAI的CEO奧爾特曼、創始人格雷格•布羅克曼。你如何看待他們帶領團隊的文化和理念？

Andrej Karpathy：埃隆·馬斯克經營公司的風格非常獨特。第一點是，他喜歡非常小的、強大的、高度技術化的團隊。默認情況下，公司都喜歡團隊不斷壯大。埃隆總是喜歡反對擴大團隊。我必須努力工作，花大力氣才能僱到人。我不得不像懇求一樣去僱人。而且，埃隆·馬斯克還很喜歡裁人。所以，我必須幾番爭取才能留下那些馬斯開默認要裁掉的人。他總是希望保持一個小而強、技術含量高的團隊。我們基本沒有管理人員，因為他們不懂技術。這是第一點。

第二點是，他喜歡充滿活力的工作氛圍和環境。所以辦公室裏，人們經常走來走去。馬斯克必須看到，員工在繪製圖表，在編碼。他不喜歡閒散的氛圍。他也很牴觸開會，他討厭沒有意義的會議。在馬斯克看來，只要你不能對團隊有所貢獻，你就走人。在別的公司，這是很罕見的，很多大公司都很寵愛員工。因此， “活躍的氛圍 “是他管理團隊的第二個理念。馬斯克的企業文化就是，你要盡全力做好技術工作，還要有一定的強度。

最後一點其實很有趣、也很奇怪，那就是他與團隊的聯繫是如此緊密。通常情況下，公司的首席執行官就像一個很遙遠的人，上至五層，與副總對話，與報告和總監對話，最後與你的經理對話。但馬斯克不是這樣的，他會來辦公室和工程師們談話。我們開過的很多會議都是，50個人和埃隆在一個房間裏。他直接與工程師交談。他不想只跟副總裁和總監談話。

通常情況下，CEO會花 99% 的時間與副總交談。他可能只花 50%的時間。他只想和工程師交談。在他看來，在一個小而強的團隊裏，工程師和代碼就是一切的基礎，而不是某個經理。他希望與工程師直接交談，以瞭解項目的實際進展，以及如何改進。因此，作為CEO卻與技術工有如此緊密的聯繫，也是馬斯克獨有的做派。

他經常問工程師在研發過程遇到了什麼困難。有時候他們會説，沒有足夠的 GPU 來運行這個程序。馬斯克就會讓GPU集羣的負責人現在就把GPU集羣加倍。他會讓負責人每天給他發更新，直到集羣規模翻倍。負責人可能會誰，我們已經制定了採購計劃，但是英偉達現在沒有足夠的 GPU，需要六個月準備。然後你會看到馬斯克眉毛一挑，然後他就會説，那我和黃仁勳談談。這樣，他就解決了這個問題。

外界都不知道馬斯克在公司內部解決了多少像這樣瑣碎又關鍵的問題。其實，對一個CEO來説，這是很少見的，至少在大部分公司你都不會看到。馬斯克的管理風格真的非常獨特，也很有效，希望在座的也能從中汲取一二。

/ 03 / 初創公司：讓AI生態充滿活力

Stephen Zhan：回到之前的話題，你參與創辦了一些在AI界頂級公司。你也是許多人進入人工智能領域的領頭人，甚至很多就在今天的觀眾席上。據我瞭解，你最關心的是**人工智能的普及、教育、工具，以及如何在整個AI生態系統中創造更多平等。**在你步入生命的下一個階段前，你認為什麼是最有意義的事？

Andrej Karpathy：我為幾家公司工作過，但我最終關心的不是任何一家特定的公司。我更關心整個AI生態系統是否良性運作。我希望這個生態系統欣欣向榮，像珊瑚礁一樣匯聚了許多別具一格的、有創意的初創企業，觸及經濟的各個角落。這就是我愛創業公司的原因，我希望這裏有一個充滿活力的生態系統。但我擔心的是，基於AGI對資本放大和集中的能力，未來會有幾大巨頭控制這個遊戲。我始終期待健康的、充滿活力的生態系統。

Stephen Zhan：你説的很在理，現在是觀眾提問環節，我們請一些在座的聽眾互動。

Brian Halligan:你會建議創始人效仿埃隆的管理方法，還是説這是他的獨特之處，你會模仿他嗎？

Andrej Karpathy：這取決於創始人的基因。你必須有相同的基因，這是一種與生俱來的氣質。當你在招聘團隊時，一定要在前面説清楚，這就是你的公司。一開始，當人們註冊時，員工會非常樂意接受。但如果你半途而廢突然改變，人們就感到很混亂。因此，只要你從一開始就秉承這樣的態度，並且始終如一，你就可以這樣經營一家與馬斯克風格類似的公司。但這也有它的利弊，這取決於不同的人，但我認為這是一種值得效仿和借鑑的的公司建設和運行模式。

Alex：除了專家混合模型之外，您對其他類型的模型合成能力有沒有興趣？我不直到你對模型合併或其他任何使模型開發更具可組合性的東西有沒有什麼看法。

Andrej Karpathy：我看到過這方面的論文，但我不知道這會不會有長久的發展潛能。我不知道你具體指的是什麼，也許是可組合性，但有很多關於參數效率訓練之類的工作。我不知道按照我的理解，你是否會將其歸入可組合性的範疇，但這只是傳統代碼可組合性很強的情況。

神經網絡在默認情況下連接更緊密，可組合性更低，但它們確實可以組合，可以作為整體的一部分進行微調。舉個例子，如果你正在做一個系統，你想讓Chat GPT和圖像組合在一起。常見的做法是，你預先訓練組件，然後將它們插入並微調整個系統。從在這些方面講，是具有可組合性的，你可以在外部預先訓練大腦皮層的小部分，然後再通過初始化和微調將它們組合起來。也許這些是我對它的零散想法，但目前我還沒有形成一整套較為連冠的理論。

/ 04 / AI界的研究生院：Reinforcement Learning強化學習

Nick：AI接下來的一個方向是詞語預測，所以我們有了下一個詞的預測。你認為有沒有辦法建立一個物理學家或者一個馮·諾依曼類型的模型，這個模型有一個自洽的物理心理模型，可以產生新的想法，來指導你如何進行聚變？如果可能的話，你怎麼能比光速旅行更快呢？有什麼辦法可以做到這一點嗎？或者，就這些人工智能模型的發展而言，它是一個根本不同的向量嗎？

Andrej Karpathy：是的，兩者之間有本質區別，這裏還有很多難關需要破解。在我看來，目前的AI發展離你口中的世界還很遙遠。粗略地説，我們已經完成了AlphaGo的第一步，機器的模仿學習部分。AlphaGo的第二步是RL（reinforcement learning，強化學習），現在的技術還沒有做到RL。而RL將從根本上改變AlphaGo，這是真正讓它成功並創造出超人的部分。這是我們需要攻克的難題，也有很多棘手的細節。長話短説，AI還處在模仿階段，就是AlphaGo的第一階段。

人們並不會只滿足現階段的AI發展。像Chat GPT這樣的數據收集推理並沒有我們想象中那麼強大。比如，當你遇到了一個問題，提示是某種數學問題，我們就想讓ChatGPT給出我們正確答案。問題在於，我們的問題不只是數學問題。人類的心理與模型的心理是不同的。人類思維的難易程度與模型的難易程度不同。人類在處理問題的時候會有一個抽絲剝繭的邏輯推理過程。但其中有推理對模型來説很容易理解，有些推理過程則就像天書一般，模型是無法理解的。

從根本上説，我們需要的是讓模型自己練習如何解決這些問題。它需要搞清楚什麼對它有用，什麼對它沒用。也許它不太擅長四位數加法，所以它會退回去使用計算器。但它需要根據自己的能力和知識自己學習。還有一點，現在的AI仍在從人類的反饋中進行強化學習，但這是一種超級弱的強化學習形式，這甚至不能算作強化學習。

AlphaGo 中的 RLHF 相當於什麼？獎勵模型是什麼？我稱之為 “氛圍檢查（vibe check）"。如果你想訓練一個 AlphaGo RLHF，你會給兩個人兩塊棋盤，然後説，你更喜歡哪一塊？然後你就會使用這些標籤來訓練模型，然後針對這些標籤進行強化學習。其次，如果獎勵模型是一個神經網絡，那麼你在優化模型時就很容易過度擬合獎勵模型，這樣就會找到所有這些虛假的方法來欺騙那個龐大的模型，這就是問題所在。

AlphaGo可以解決這些問題，因為他們有一個非常明確的目標函數，你可以用強化學習與之對抗。所以RLHF（基於人工反饋的強化學習）遠遠不夠，我會説 RL 就像傻子一樣，另外模仿學習也超級傻。人們需要尋找更好的方法來訓練這些模型，使其與自身和自身心理保持一致。在這個方向上我們還需要不斷探索進步，這有點像人工智能模型的研究生院。AI也需要像我們一樣自己在圖書館捧着一本書自主學習。

舉個例子，當你在學習知識，教科書裏會有練習，也會有提示你練習教材的內容。但是，這不僅僅是從左往右讀（Alphago的第一階段模仿學習）。你需要練習，做筆記，你要重新措辭，重新構思。就像你在學習這些知識的過程中，對這些知識進行了大量的操作。而我們在llm大語言模型中還沒有看到類似的事情。所以，AI發展尚在早期。

Yuzi：同時兼顧最優性和實用性很酷。我想問的是，你們是如何將A（降低成本、創造收入）和B（尋找推理能力更強、質量更好的模型）這兩個優先事項結合起來的？你們將如何協調兩者？

Andrej Karpathy：一般做法是，一開始就不計成本使用功能最強大的模型，比如同時使用 GPT-4和超級提示，只是想讓你的東西發揮作用。所以，首先要追求準確性，然後再做出讓步。你要檢查某些類型的查詢是否可以降到 3.5。然後再檢查是否可以降低成本。所以我會説，先追求性能，然後再降低成本。

如果你能讓它運轉起來，比如説你做了10個提示或20個提示，然後你挑出一個最好的，你進行了一些比較篩選，或者這就是最佳版本之前的試錯。通過不斷試錯，你就能得到大量可能的問題類型。在此基礎上，你可以運行程序來獲取標籤。然後，你可以得到一個更精簡、成本更低的模型，在上面進行微調。無論如何，我都會先儘可能做好工作，然後再降低成本，這是我的建議。

/ 05 / 開源，讓AI觸手可及

Sam：在過去的一年裏，我們從開源生態系統中看到了很多令人印象深刻的成果。我很好奇，隨着模型規模的不斷擴大，開源生態系統會繼續跟上閉源開發的步伐嗎？

Andrej Karpathy：從根本上説，我也不清楚。這些模式都是資本密集型的，比如Facebook和Meta等，他們有能力大規模培訓這些模型，但這並非他們的核心業務，因為這並不是他們的搖錢樹。

因此，他們有實際的動力去發佈其中的一些模型，從而增強整個生態系統的能力，這樣他們就能引入所有創新的點子。但到目前為止，我認為他們只做到了開放權重模式。我認為他們應該更進一步，這也是我希望看到的。這對大家都好。但是就模型訓練數據而言，社會一直存在一些爭議。我不知道如何克服這一點。也許他們應該嘗試尋找他們認為非常容易使用的數據源，或者類似的數據源，並嘗試將模型架在這些數據源上。

Meta 和 Facebook 做得很好，是這個領域的領頭羊。他們發佈了論文、日誌等。在促進生態系統方面，他們可以做得更好。我想，提高更多的透明性，這指日可待。

Peter：什麼會讓人工智能生態系統更酷、更有活力，同時，什麼阻礙了它的發展？是開放性，還是其他你認為或許更重要的東西？

Andrej Karpathy：一個重要方面就是AI是否是開放的、可觸及的。我最近發過一條推特，説的是 “第一，設計產品；第二，加速發展”。我想説，有很多人都在做第一件事—設計更多的AI產品。但是，專注於創新加速發展的卻少得多。我們都是新手，都在試圖瞭解AI是如何工作的。我們都需要加強合作，以弄清如何有效地使用它。所以，**我希望大家能更開放地分享他們的心得，他們是如何訓練這些東西的，哪些有效，哪些無效，**這只是為了讓我們從彼此身上學到更多。第二，開放生態系統也展現了相當大的發展勢頭，也許還有一些我已經説過的改進機會。

Michael：要從模型中獲得下一個巨大的性能飛躍，您認為用思想標記（thought tokens）或激活信標（activation beacons）修改transformer架構就足夠了嗎？還是我們需要完全拋棄它，並提出一個新的基本構建塊，將我們帶到下一個重大進步或AGI？

Andrej Karpathy：首先，我要説的是Transformer太不可思議了。在Transformer問世之前，我曾一度以為神經網絡會瘋狂地多樣化。但事實並非如此，甚至完全相反。所有的模型都是一樣的。能做到這一點真是不可思議。我不知道這是不是最終的神經網絡…從這個領域的歷史來看，很難説這就是它的終結。在自迴歸或融合方面，這有點像建模和損失設置，我想説的是，那裏肯定會有一些成果。但同樣在Transformer上，精度和稀疏性這些槓桿，在我們的推動下，加上硬件的協同設計以及可能的發展，使網絡架構更加適應這些約束條件，以及所有這些如何發揮作用。

在某種程度上，Transformer 是為 GPU 而設計的。可以説，這是 Transformer 論文中的一大飛躍，也是他們的出發點，即我們想要一個從根本上來説非常可並行化的架構。由於遞歸神經網絡具有順序依賴性，這對 GPU 來説是非常可怕的，而 Transformer 則從根本上打破了這一限制。

但這也是一種針對現有硬件的算法。因此，我認為這也是一種相同的精神。但長話短説，我認為我們很可能還會看到它的變化。但不得不説，Transformer在問世的8年間已經被證明具有非凡的適應能力。所以最初的Transformer和我們現在用的並沒有太大區別。

Stephen Zhan：臨別之際，您對在座的所有創始人和AI工程師有什麼建議？

Andrej Karpathy：我通常沒有什麼通用建議。我關心的事情是，創始人也會非常關心。我還想，比如我們如何才能擁有一個充滿活力的初創企業生態系統？初創企業如何繼續勝出，尤其是在與大型科技公司的競爭中？生態系統如何變得更健康，你能做些什麼？

Stephen Zhan：聽起來你應該成為一名投資者。非常感謝你的參與，Andrej，感謝你今天一整天的參與。