智源張宏江對話谷歌盧一峯：什麼才是大模型“皇冠上的明珠”？_風聞

极客公园-极客公园官方账号-2小时前

2023-12-26

做科學的角度首先要定義問題。

作者 | Li Yuan、鄭玥****編輯| 衞詩婕****

自 OpenAI 發佈讓全世界矚目的 ChatGPT 以來，時間已經過去一年有餘。

大模型技術在這一年裏不斷進化：無論是越來越強的多模態能力，還是智能體（agent）的潛力初現，都讓人們對這一場 AI 革命充滿期待。但在 LLM 技術飛速發展的當下，要想使得大模型的能力落地關鍵領域，還存在哪些挑戰及亟待解決的問題？

我們特別邀請了兩位頂尖的技術極客——美國工程院院士、智源研究院原理事長張宏江院士，與 Google DeepMind 資深工程師盧一峯進行了一場有關前沿技術的對話。

作為北京智源人工智能研究院的首任理事長，在 2020 年 GPT-3.0 發佈之後，張宏江曾帶領一眾國內學者探索大模型技術，在他主導下的智源傾斜了大量資源投入大模型訓練，併發布了中國首個大模型，奠定了中國大模型領域的技術積累。

而盧一峯所在的谷歌，則一直以來是 AI 領域的先行者。目前，所有大模型所基於的 Transformer 架構最初都來自於谷歌對於 AI 的研究。2020 年，谷歌基於 Transformer 架構開發的 AI 聊天機器人第一代 LaMDA（當時項目名為 Meena）開發和推出，盧一峯就是項目發起人之一。作為技術專家，他也一直在產業第一線推進大模型能力的邊界。

這次對談中涉及了多個極為關鍵的話題：如何解決大模型幻覺（AI hallucination）、使大模型擁有「超人類」的能力、訓練數據枯竭的下一步應對、以及底層技術架構創新等。正如盧一峯的調侃，不少提問是價值「百億美元」級別的問題。

以下為訪談實錄，發生在極客公園創新大會 2024，經極客公園整理編輯後發佈

我們如何能夠更信賴大模型？

讓它形成慢思考，並表達不確定

張宏江：大家最近都在關注 OpenAI，尤其這一系列變化中間有一個代號為 Q* 的神秘項目。在 Sam Altman 被開除的 4 天前，有幾名 OpenAI 的研究人員向董事會發出的聯名信裏寫道，Q* 可能會威脅全人類。一峯，你怎麼看？

**盧一峯：**畢竟我不在 OpenAI 裏面，以下也僅僅是我的一些猜測。

我自己一直有一個觀點：我覺得**現在的大語言模型實際上還是屬於一種「快思考」的模式。**它的知識是來自於整個互聯網的數據，壓縮以後進行的重組、彙編，憑此來試着回答用户的問題。它實際上離我們真正所謂的「慢思考」——即幫助人類去解決一些很難的問題，還有很長的路要走。

**區別就在於，你可以讓它幫你寫一些日常的郵件，但是如果你問它，「我們怎麼能夠把人類帶到火星？」這樣的問題，那它就無法用一次問答的方式獲得完整的答案。**這個時候，我認為它需要像我們做科學做實驗一樣——需要運用很多的工具，去探索不同的可能性，把其中比較好的方向摘出來，再往前進一步。

而這種方式，目前在大模型中還沒有太多的出現。所以我並不擔心（Q*會威脅人類）。未來，如果大模型能夠自我進化、自己推進研究，那可能是我會更擔心的時候。Q* 可能就是朝着這個方向，取得了一些比較有前景的早期成果，或者是他們看到了它自我進化的能力，這可能是他們比較擔心的。

張宏江：那我們接着討論一下，大模型怎麼樣才能夠慢思考？對比一下人類的慢思考能力怎麼獲得，大模型的訓練有沒有可以借鑑的地方？

**盧一峯：**大模型現在一次成型回答問題，依靠生成一個詞元，用這個詞元加到它的上下文裏面，來生成下一個詞元，我們稱之為自迴歸的解碼（autoregressive decoding）。

我個人覺得如果我們要獲得慢思考，實際上我們要回答兩個問題。

第一個問題是，大模型在一個一個解碼的時候，在什麼時候會不確定？就像如果別人問我，一峯你怎麼樣造一個火箭去火星？那可能我説「我覺得…」，之後的下一個詞，我可能就會卡住，思考我到底該説什麼。我們要找到模型這樣不確定的時候。

第二個問題就是，在它不確定的時候，我們怎麼停止它，讓它進行探索。這個探索可以有幾類。實際上和我們人類很像。當我不確定的時候，我會做什麼呢？我會上網，我會去翻書，我會做實驗，我會去想一些莫名其妙的想法，我會去跟別人討論。大模型也有對應這幾種方向的技術路線。

上網和翻書，對應的是檢索增強生成（RAG、Retrieval Augmented Generation），就是把搜索引擎加到模型中來。用各種實驗系統（包括仿真）對應的是工具的使用。和別人聊一聊，對應的是大語言模型智能體（agent）和智能體之間通過多智能體之間（multi agent）的交流和組合，來獲得一些共識。

做研究的代表可能是搜索，比如説 AlphaGo 裏面的蒙特卡洛樹搜索（Monte Carlo Tree Search），或者説我們之前做 AutoML 時使用的神經結構搜索（NAS Architecture search），或者進化算法，本質上都是搜索算法。

最終的狀態可能是達到一個循環，條件為「我不確定」時，那我就去找一些相關的信息來。繼續判斷這個條件，達成了「我確定」，就繼續解碼下一個詞元，否則就再去找一些相關的信息來。

當我們能夠準確地回答大模型什麼時候不確定，以及不確定以後應該怎麼確定這兩個問題時，我們就能夠很自然地引入大模型的「慢思考」。

張宏江：今天，大模型幻覺問題（hallucination）還比較嚴重，這些不準確性使得我們在一些所謂的關鍵任務中不太敢用大模型。最近業界如何試圖解決這個問題？

**盧一峯：**在這個問題上，我最早的思考角度源自 John Schuman。

他提到，預訓練的大模型內部已經壓縮了很多知識，模型內部已經有了一個概率分佈，瞭解自己知道什麼不知道什麼了。而我們在做第二步微調，或者我們稱為對齊的這個步驟時，如果我們沒有很仔細地去做，那我們有可能會促使它撒謊。

一個簡單的例子就是，如果它的訓練數據是到 2021 年截止，還不知道 Elon Musk 後來當了 Twitter 的CEO，我們對齊時強迫它説 CEO 是 Elon Musk，有可能你最後教會它的，並不是這一條知識，而是教會了它説謊。它就會學會，哪怕我不確定、不知道，也可以瞎説。

**我們需要非常仔細、非常謹慎地去選擇對齊數據，保證我們讓它説的東西是真實地反映了它的知識水平、**它的數據庫裏面的數據。

這是一種想法，後來實際上業界也會有很多更新的方向：

其中**一個比較熱門的方向就是檢索增強生成（RAG）。**就是説，通過去發送一些搜索引擎的查詢去獲得一些很客觀事實的簡短的文字，然後再把這些簡短的客觀事實，像維基百科這樣的相關的文字放在這個上下文窗口裏面。

我們嘗試過所有這些方向後，發現現在大模型的幻覺問題的解決，比起年初已經有了不錯的進展，但是離真正的靠譜還有很遠。

張宏江：是的，大概一個月以前，我跟伯克利的 Michael Jordan 有過一次見面，他講到我們在市場營銷上也好，金融行業也好，都在處理一件事情，就是不確定性。瞭解不確定性，提前算入或者避免不確定性，十分重要。和人類一樣，大模型的幻覺是無法減少到零的——但是，當我們回答問題的時候，人類會説「讓我想一想」。

**盧一峯：**是的。**如果它能夠很坦誠地表達不確定，它就能贏得用户的信任，因為用户知道它的邊界在哪裏。**現在它最大的問題是一本正經地説瞎話。如果它能夠表達不確定的話，這件事情已經算成功了很多。

打造「超人類」大模型？

合成數據、架構創新、多模態、和 agent 的未來

張宏江：能夠做到這些，要求我們對於整個大模型的學習架構有個很大的改變。這就引出一個很重要的問題，Transformer 這種基本的架構是不是就是現在唯一可靠的架構？大模型向未來的發展的過程，中間技術路徑上還會不會有新的，根本上的變化？

**盧一峯：**宏江老師，你提的問題非常深刻，我覺得問題的正確答案可能是值百億美金，或者甚至更多錢。我的思考是這樣的：

現在，我們提到的 Transformer 這個架構，實際上已經不僅僅指 17 年 18 年 Transformer 的那個論文包含的內容，而是指一整套的算法和解決方案。而且，即使説到最窄的範疇，現在 Transformer 的架構也已經比當年的 Transformer 的架構有了很大的優化和改進。

**Transformer 是針對 GPU 和 TPU 這種非常擅長做稠密計算的硬件的軟件加速器。****包含了架構，也包含了下一個詞元生成（next token generation）這種非常有效的訓練目標等。**它非常優雅地讓我們通過壓縮數據獲得了智能。

**我認為****我們可以繼續改進它，還有很大的空間，但要顯著改變它則有一定難度。**這個難度在於這幾個維度已經彼此交織在一起。從 16 年到現在，整個業界在軟件、硬件和數據方面進行了許多組合優化，已經將其推進到了一個局部最優狀態。

而在這樣的狀態下，通常我們要打破它，可能需要跳出來。你要到下一個山峯，必須得先下山再上山，才能到達更高的山峯。

如果要發生大的變化的話，我猜測可能從幾個點上：

**首先是硬件的變化。**Transformer 起飛和硬件關係很大。大概 17 年、18 年的時候，Google 的 TPU 以及英偉達的 GPU，到了一個相對比較成熟的一個狀態。Transformer 團隊設計出這個結構，最大化地利用了硬件的優勢。

我的期待是説，如果有全新的硬件推出，可能會誕生很不一樣的軟件系統。或者軟件和硬件能夠相互推動，走出一條新的路。

**另一個點，可能是訓練目標的改變。我認為多模態可能成為下一個前沿領域。**大模型通過看書的方式，學習到了人類文明的許多有意義的部分。而看書並不能學到所有的知識，有的時候一圖勝千言。如果我們能夠訓練模型學習多模態數據，並且是對我們人類有意義的這些重要數據，比如很好的電影，或者説我們人類的戰爭的紀錄片，將是非常有意義的。

我認為視頻在下一個詞元的預測上具有與文字相似的訓練特性。你可以將視頻視為一系列詞元，例如觀看第一集後，嘗試預測第二集的情節，觀看片段後，預測接下來會發生什麼。通過這種預測工作，可能使模型具備更全面的世界知識，或者成為更完善的世界模型。

張宏江：今天，我們已經用盡了人類的所有的文字記錄進行訓練。文字數據的瓶頸應該再怎麼突破？合成的數據會不會是一個趨勢？

**盧一峯：**我覺得這是一個非常非常好的問題，宏江老師。數據是現有的這個 Transformer 架構下面一個非常非常重要的一個組成模塊，甚至稱之為最重要的組成部分之一都不為過。

我的看法是，數據不僅僅是數據，數據是一個過分抽象、過分籠統的一個概念。在我看來，數據實際上是任務，實際上是目標。

比如説我們通常把**數據劃分為兩部分，一個是預訓練的數據，一個是我們後面做對齊的數據。**我們以預訓練的數據為例。大家會覺得預訓練就是説，把整個互聯網的語料拿來，預測下一個詞元就好了。但實際上，這個過程中，我們在做各種各樣的任務。

有些是語言任務，比如説你説了「this」，那下面可能接「is」。有些是做推理、去做總結、甚至去做分析判斷的任務，比如説把整個偵探小説所有線索、所有故事都作為上下文，讓模型預測誰是兇手。它還會做數學的，編程的，寫詩的，事實問答的各種任務。

我們現在稱預訓練過後的這種模型為世界模型。因為它做了各種各樣的任務，它最後顯得什麼都懂得一點。但是我們好像現在是把這個世界上所有的語料都扔進去了，訓練出來的模型有時候還是有點笨，不太可靠——因為互聯網的數據是魚龍混雜的，它只能代表普通人類的認知水平，而不能變成超人類，無法成為百分之一的聰明人的水平，怎麼辦？

從這個問題出發，我覺得我們**就能推導出，我們還需要什麼樣的數據？如果我們要造所謂的合成數據****，****我們應該去造什麼樣的數據。**我能看到合成數據的一個機會，是超人類的數據。

Demis Hassabis 之前講過，創新有三個境界。大模型達到的就是第一個境界。似乎出現了一些創新，但實際上本質上是在達到現有人類已有的知識的平均線，沒有突破人類知識的邊界。

要到下一個層次，突破人類知識的邊界，需要類似於 AlphaGo 裏面的第 37 步的那種操作，或者説 AlphaFold 裏面能夠把這個世界所有的蛋白質摺疊，精準預測的能力。要完成這樣的任務，需要的數據很難通過從互聯網上去收集，或者找人來撰寫。

在這種情況下，實際上我們可能應該要用 AlphaGo 的這條思路去思考這個問題，就是説你可能需要的是隻是給定一個環境，給定環境最終的目標，然後讓大模型或者AI系統通過自我博弈、自我進化去達到一種超人類的解法，這個超人的解法實際上是最好的合成數據，也是我提到的慢思考的過程。

然後我們把慢思考的成果——因為你花了這麼多算力把它給搞出來了——蒸餾回模型裏頭，能夠讓模型能更有效率地、一次成型地回答出這個問題。我覺得是可能合成數據的一個可能更深的一個邏輯所在。

你能在這場革命中做什麼？

找到獨屬於自己的數據和問題

張宏江：我們今天在座的觀眾中，有很多是大模型應用的行業人士。我們都知道，每當 OpenAI 召開發佈會，無論是發佈新的插件還是像這次發佈的 GPT store，都會讓許多人感到驚歎説，「OpenAI 的 GPT 的能力太強大了，把我原來要在一個垂直領域做的東西做掉了。我過去六個月做的事情白做了。」在這種情況下，作為創業者，我們還能做些什麼呢？

**盧一峯：**我的第一個觀點是，每個人在自己的賽道上的時候勝率是最高的。每個人都擁有自己獨特的生活、工作和學習環境，以及獨特的經歷和社會關係，都能獨特地感知到屬於他自己的那個機會，在這樣的情況下進行應用是勝率最高的。

第二，無論是大模型、當年的 AI，還是未來的智能體，我們都可以將其視為家裏的汽車或電腦一樣的工具，只是一種方便實用的工具而已。

當你有了這兩個東西時，**我與其去糾結於別人做提示詞工程師我也要做，或者別人做應用我也去做一個，我覺得不妨退一步，冷靜思考一下：****如果突然間上天賜予我這樣一個魔法工具，我能為我的生活，我能為周圍的人帶來什麼改變？**我能為我的日常生活帶來多大變化？這是我的思考角度。

還是要親自下水去玩這個模型，也許在這個過程中你會了解現在這個工具的邊界在哪裏，你也許能體感到，它現在可能還沒有準備好。你再過一段時間再去玩一玩它。等到有一天你發現它能夠幫你解決問題時，也許那就是你應該全力擁抱它的時候了。

張宏江：我同意，每個人都應該從自己的體驗、經歷、工作和愛好的領域來思考 AI 的潛在應用。移動互聯網的成功源於一系列原生的應用，而如今我們仍處於大模型時代的早期，正在不斷探索 AI 時代和大模型時代的原生應用和體驗。

剛才你提到的這點，也是我也想跟所有的朋友分享的一點：讓自己跳進水中成為一個實踐者，成為一個玩家。只有在游泳的過程中，你才能夠對大模型的潛力，對它的問題有更深刻的認識，對可能潛在的運用和自己能做的事情有激情。

*頭圖來源：極客公園

本文為極客公園原創文章，轉載請聯繫極客君微信 geekparkGO