獨家丨李志飛將在大模型領域創業,做中國的 OpenAI_風聞
极客公园-极客公园官方账号-02-16 09:26

ChatGPT 的爆火點燃了 AI 大模型時代,李志飛告訴極客公園,自己將全力投入其中。
作者 | 凌梓郡
編輯| 鄭玄
ChatGPT 爆火後,新的共識正在逐漸形成:語言大模型將成為下一個科技時代的超級加速器。中國也需要自己的 AI 大模型。而有能力做這件事的人選並不多,李志飛是其中之一。
作為科技創業圈最資深的自然語言科學家之一,李志飛出身美國約翰霍普金斯大學語言與語音處理實驗室,博士期間一直研究機器翻譯和自然語言處理。離開大學後,李志飛加入谷歌 AI 團隊,主導開發了包括谷歌手機版離線翻譯等一系列產品。2012 年,他選擇回國,在語音交互領域創業,創立出門問問。
ChatGPT 火起來之後,他一個月兩次前往硅谷,和來自 Open AI、谷歌、DeepMind 等各家的工程師和科學家交流取經。「AI 大模型的元年」來了,這是他最直觀的感受。一番調研之後,他明白這場大模型之戰,參賽選手不止巨頭,也不會是隻有一兩個倖存者的「生存遊戲」。
語言模型、人機交互,變革發生在李志飛學習、研究、工作了十幾年的領域。他告訴極客公園,已經下定決心投身其中,做一箇中國的語言大模型。
「我一直想做一個我能做,我喜歡做,同時也有深遠價值的事情。」他表示,早在 2020 年 GPT-3 剛發佈時,他就提出 GPT-3 是「暴力美學」的勝利,看到了通往 AGI 的可能性,並最早着手開發 GPT-3 中文版 UCLAI。
近日,李志飛和極客公園進行了一場近兩個小時的交流,分享了自己對大模型、ChatGPT 的看法,以及自己接下來在這個領域創業的思路。
以下是對話實錄,由極客公園整理。
01
「這就是 AI
大模型時代的開啓」
極客公園:怎麼理解這場 ChatGPT 帶來的狂熱浪潮?新在什麼地方?為什麼大家現在這麼興奮?
李志飛 :ChatGPT 始於一個基於統計的語言模型,通過千億級參數的訓練,讓它擁有了各種能力,可以快速學會各種任務。這次普通老百姓都體驗到,ChatGPT 在語言表達、回答知識性的問題、多輪對話的上下文邏輯等方面的表現,帶來的體驗超出所有人的期望。它可以編程、做算術題、寫詩,甚至某種程度上比真人做得都要好。
極客公園:除了震驚的體驗本身,在創業者或者資本看來,是怎麼把它看成一個變革性的商業機會的?
李志飛 :我過年第二天就再次跑到美國去,初衷就是想了解有沒有人清楚這是怎麼搞出來的,為什麼大模型這麼厲害。
我跟 Google、OpenAI、DeepMind、Meta、Amazon 的人聊,即使技術大牛都還不清楚 ChatGPT 如何擁有這種能力。但是大家能夠看到很多現象。第一,用户太瘋狂了;第二,美國太瘋狂了,在美國知名孵化器 Y Combinator,可能有三分之一以上的項目都是基於大模型做的應用。
所有人都認為,這是 AI 大模型時代的開啓,就像 2010 年移動互聯網時代一樣。不到硅谷,切身感受到 AIGC 的火熱,我不會下定此刻是「AI 大模型時代」這一結論。我每天七八個會從早説到晚,喉嚨都是啞的,都是討論這個東西。讓你覺得這就是一個時代的開端。

圖片來源:DeepMind
極客公園:對這個時間節點,很多人將其比作移動互聯網的 iPhone 時刻。大家已經想清楚這是一場怎樣的變革了嗎?
李志飛:為什麼説現在 AI 大模型出來,大家像 2010 或 2011 年的時候看移動互聯網一樣?我 2010 年在硅谷,當年所有人都覺得移動互聯網是一個大事,但所有人也都覺得商業模式不清晰,因為屏幕太小,廣告做不了,而且網絡信號也不好。但是當時大家看到幾個東西,比如屏幕體驗已經很好了,3G 通訊也能用了,在路上發郵件查餐館雖慢一些,但是 GPS 很準。
我對現在也有這種感覺,直覺這是一個大事情。美國創投在 2022 年 10 月已經覺醒了,當時我在美國,有一位紅杉的投資者跟我説,李志飛,你的時代到了。我説為啥?他説你知道嗎?在美國,紅杉所有的管理合夥人只討論 AIGC,別的項目都不看了。
極客公園:今天,投資 AIGC 還是很多 VC 的看點,但最近大家對於底層 AI 大模型的熱情也漲起來了。這是什麼原因?
李志飛:現在很多人把 AIGC、ChatGPT、AI 大模型攪在一起。要先理清楚這三個是不同的概念。最底層是 AI 通用大模型,上面可以做 AIGC,比如説 Midjourney 可以畫畫,Jasper 可以寫文案等;也可以基於底層模型做對話機器人,比如基於ChatGPT。在美國,除了 OpenAI 和巨頭,還有另外三、四家創業公司也都在做 AI 通用大模型,都有大幾億美金的投入。
但是在中國,你突然發現,要進入 AI 大模型時代,根本就沒有一個基本的、能玩得好的 AI 大模型,怎麼做應用?如果現在是移動互聯網的開端,安卓、 iOS 是不是超級重要?但是今天中國缺乏大模型時代的安卓、 iOS,所以根本沒法開發應用。即使中美完全暢通,以今天中國科技的發達程度,以及資本的力量,AI 大模型肯定也是一個必須的基礎設施。
極客公園:AI 大模型就是 AI 時代的操作系統級別的存在?
李志飛:我不太想把它比作操作系統,也不想把現在看成 iPhone 時刻或者網景時刻。因為我覺得所有這些比喻,都會讓我們錯誤地去判斷這個事情。如果把它比作操作系統,按歷史看我們會覺得中國肯定沒戲;如果把現在看成網景時刻或 iPhone 時刻,那創業者應該選擇去做一個網站或移動 APP,但現在中國缺的反而的是一個大模型時代的瀏覽器或 iPhone。
另外從形態來講,無論是瀏覽器,還是硬件,還是安卓 iOS,都是一個離線的東西,或者是一個靜態的東西。
AI 大模型是一個跟數據、業務高度融合,需要動態迭代發展的一個存在,它是個 service,下面不停在變,和應用深度的融合。它遠遠比當年靜態的事物要更加有多樣性,有更多可能性。
極客公園:更接近一個新時代的雲。
李志飛 :我覺得比喻成智能雲 OS 更好一點,這是一種整合的流動的 Service。凡是離線的、硬件的、實體的來類比,AI 大模型都會被帶偏。任何對它歷史形態的簡單歸納,都有可能束縛對於它的正確理解。
02
「它可能讓整個
價值鏈都重新塑造」
極客公園:既然不能做定義,怎麼理解目前 AI 大模型展現出的超強能力和想象空間?
李志飛:在我看來,它是一個「通用的認知引擎」。首先它有超強的語言能力,在學習語言的過程中,也學習了很多知識和邏輯。有了這些基本能力後,就能快速擁有做各種任務的能力。
比如説只需要給它少量的數據,就能夠做翻譯。本來它只懂中文,但如果你給了一萬個中英互譯的例子,它就能夠很快做好翻譯。就像打通任督二脈一樣,它很快就能夠自己把能力串通。
所以這個認知大模型的能力會帶來很多可能性。比如拿現在的大模型加一些蛋白質結構的數據,它展現出來的預測結構的能力,很可能就比不是基於語言大模型的其它模型效果要好得多。
極客公園:為什麼通用大模型會有這麼強大的潛力?
李志飛:模型學會了非常底層的結構和機制。萬物都是自然產生的,語言也好,生物結構也好,它一定符合某種我們目前難以解釋的規律。模型經過互聯網上所有的數據訓練之後,它也獲得了某種屬於自己的解讀方式。
極客公園:這種能力是通過學習語言獲得的嗎?
李志飛:語言是底層的突破,如今通用性表現在,這個系統能夠通過語言模型,做各種各樣的任務。以前的語言模型只能做某一個具體任務。比如有一個訓練好的預訓練模型,有潛力做很多任務,但是一旦進行 Fine Tuning (微調)之後,就只能做一個任務了。微調讓它處理任務的準確率更高,但卻是以喪失多任務能力為代價的。
現在的通用大模型,即使進行了微調後,依舊可以做多個任務。預訓練的核心是讓它有基礎的認知和邏輯能力,通過微調引導,讓它能夠在各項任務上處理得更好,知道怎麼使用已有的知識。
極客公園:就像讓一個人上完大學之後,獲得了基礎能力,然後可以從事不同的崗位,做不同的事情。而不是在幼兒園的時候,就開始訓練它擰螺絲。
李志飛:這個比喻很對。以前做某個單獨任務,比如機器翻譯,就像一上來就教它擰螺絲。當然這也需要一定的語言邏輯和知識能力。但是如果第一天只教了擰螺絲,比起先讓它讀大學,然後再教它擰螺絲,可能後者擰得更好。第一是學得快速高效,比如之前可能要教 5 年,現在只要教 5 天就行了。第二,不但可以擰螺絲,還可以教它寫論文,做教授。只要用很少量的例子,就可以讓它快速學習。
極客公園:這樣通用大模型的出現,對於 AGI(通用人工智能)意味着什麼?
李志飛:今年可以説是 AI 通用大模型的元年。對於 AGI 來説,我認為是明確有光,越來越逼近,也可能永遠都不能到達。今天人類的智能可能也沒有被挖掘充分。AGI 的天花板可能是人類集體智能的一個集合。如果你把全世界每一個人具備的能力,以及特異的東西都聚合在一起,看成一個抽象統一體,這就通向集體智能。
如果這樣假設,現在是這個階段的起點。
極客公園:如果説現在我們能夠看到基於 AI 帶來的全新生產力。它會給現實帶來怎樣的影響?
李志飛:現在 ChatGPT 或 AIGC,還存在於虛擬世界,幫助人類提升效率,比如自動化一些步驟、做一些重複的工作,或者給一些腦暴 idea。未來三五年,都是人的得力助手。

圖片來源:DeepMind
我們為什麼覺得它厲害,後面的應用可能遠超互聯網,因為這是一個「通用的認知模型」。一旦把這個方法論、基礎放到不同領域,可能會重塑很多東西。
我覺得它可能真的會讓整個價值鏈都重新塑造。比如對於程序員,以後可以用自然語言溝通,提供數據,模型直接寫程序。這可能就會導致計算範式產生巨大的改變,操作系統、分佈式計算、甚至芯片本身的大部分工作,都會從程序驅動變成數據驅動。這種改變發生以後,今天還有生意的一部分企業,可能再過 10 年就沒生意了。
03
「AI 通用大模型
是一個核武器,
它是有時間窗口的」
極客公園:2020 年 GPT-3 出來的時候,大家挺震撼的,國內也熱過一波。在那個變化發生的時候,大家沒有去把它持續不斷地做好,是因為什麼?
李志飛:抽象地説,第一,沒有對於 AGI 的信仰;第二,就算你有信仰,像我這種已經產生的信仰,並且當時也訓練了 GPT-3 中文版 UCLAI,但還是不夠堅決;第三,到執行層面,也沒有足夠的錢;第四,沒有一個有真實用户的線上大模型,就沒有產品和數據閉環。GPT-3 從 2020 年已經在線上跑了,拿到數據,然後每個星期重新優化迭代。

GPT-3 中文版 UCLAI | 圖片來源:出門問問
極客公園:在國內,功能性、專用的 AI 很早就在各個場景裏應用了,但是大家更多去考慮應用場景,而沒有對大模型的革命力有更多的想象。
李志飛:對,剛才只是講了一些抽象的東西。整個土壤不一樣,土壤孕育的人也不一樣。人和錢都很重要。比如美國,有一批財務自由的人,總是要幹一些跟別人不一樣、超級不確定的東西。甚至有時候非常偏執。OpenAI 前三年在毫無營收的前提下,每年燒 5 億美金。
咱們對不確定性的東西,天然比較恐懼,但跟 10 年前比好太多了。10 年前中國是什麼狀況,當時我回國做中文版 Siri,做一個語音 APP,大家都覺得如神一般。如果我今天只是把 API(Application Programming Interface 應用程序編程接口)包裝一下,做一個 ChatGPT,大家就會覺得山寨。因為大家已經開始認識到,需要 10 億美金砸裏邊做大模型。
極客公園:如果説今天就像哥倫布已經發現新大陸,在中國我們要去復現屬於自己的 AI 大模型,是怎樣的難度?
李志飛:首先,我們知道新大陸肯定有金子;第二,我們大概知道路線是什麼樣子,但沒有特別精準的地圖。我們知道 LLM 能夠實現,也大概知道它的原理是什麼樣子,但是做的過程中,肯定有無窮的風浪,有很多決定需要去做,才能夠到達彼岸。
現在市場上流傳着中美之間的差距是兩年,或者不到兩年。我覺得,如果現在有足夠多的錢、算力、人,我們今天開始搞一箇中文 ChatGPT,可以做到和它性能差不多或者差一點,這就是我們培養的一個大學生。人家的大學生現在已經 80 分了,我們培養的是 60 幾分,只要努力,後面升到 80 分也越來越快了。
極客公園:比較而言,目前中國做 AI 大模型,有什麼優勢,有什麼劣勢?
李志飛:先説短處,對於大規模的 AI 大模型,我們的人才是非常少的,因為中國沒有怎麼訓練出過好的大模型。過去我們的模型參數可能也很多,但不是通用的,語音識別、TTS、人臉識別都單獨做一套,所以方法論也有點不一樣。還是以大學生比喻,目前中國訓練的大模型可能只有 40 分,沒到 60 分。只有先做出一個 60 分的大模型,有了自學能力,才能靠勤奮努力升到 80 分。
同時我們也有優勢,比如在數據層面,可以標註海量的數據,可以做精修;第二,如果方向很清晰,中國是很擅長「暴力美學」的。
極客公園:對於 AI 大模型,目前所有人都説不清楚商業模式、最終產品形態是什麼樣。在這種不清晰的狀態下,在中國,做一個小一點的東西,直接通向某個目標,是不是更合適?
李志飛:我覺得,最一流、最前沿的投資者,這一時刻大概率會選擇最大的東西,因為垂直領域的東西根本就不用着急。大家都知道通用 AI 大模型是一個核武器,它是有時間窗口的。人才壁壘、時間壁壘、數據壁壘、資金壁壘一旦建立起來,小的團隊就沒有戲了。
目前,美國做通用 AI 大模型的融資窗口就已經關了,除了 OpenAI 以外,好幾家都有大幾億美金。除非有超級牛的人進來,否則不會再有 VC 再進去。
極客公園:如果未來中國也出現了一個類似 OpenAI 的大模型,以及垂直領域的細分模型,未來的產業形態會是怎樣?
李志飛:肯定不會是一個大模型。在美國,可能 Amazon 會有一個,不管是自己做,還是收購,微軟和 OpenAI 會有一個,Google 會有一個,創業公司還會有一兩個。它是一個通用認知模型,後面還有各種各樣的商業模式,比如在金融領域做一個應用的模型。但是前提是你有了一個 60 分的大學生,才能通過勤奮努力學會搞金融。
我覺得大模型的數量不會像以前互聯網操作系統那樣就兩個,那是一個靜態的東西。因為我們現在想象不出來通用大模型到底還能做出什麼,在別的應用領域是不是能重塑各種各樣的形態。比如製造業,可能也要有一個,但前提是要有通用大模型的能力。
04
「現在要爭分奪秒
拿到參賽門票」
極客公園:如今環境在變化,有決心的人也在出現,比如王慧文。足夠富裕,敢冒風險的人有了,投資人也出現了。有了這些條件後,做這件事還有哪些難點和不確定性?
李志飛:技術之外的因素,比如 CEO 和首席科學家是不是在某些決策,或者對時間的期望能夠達成關鍵一致?比如,首席科學家要花 1 億人民幣買 1000 張顯卡,三個月之後才能訓練出一個參數 1000 億的模型。如果 CEO 特別急躁,説 1 億人民幣,三個月以後還不知道能不能做出來,問一個月做出來 500 億參數的行不行?看起來很簡單的東西,如果兩邊的判斷不一致,可能會導致下不了決心,或導致動作變形。找人工智能科學家難,怎麼用好人工智能科學家更難。
高層對時間、節奏、投入的認知要達成高度一致。包括投入多少錢、多少數據、多少人、多少算力。團隊之間也是一樣,還會遇到很多工程選擇,比如做模型,是用更多的預訓練數據,還是去標註更多的數據?在模型結構裏,是把所謂的 context 長度變長,還是把字符向量表示得寬一些?至少有幾十個超參數需要去處理。每個超參數隨便一變,就可能影響你的時間、錢、要用的 GPU,最後結果還不確定。
極客公園:巨大的工程量面前,影響結果的不確定性因素很多。
李志飛:這些 OpenAI 也不會告訴你答案,他可能嘗試過很多,什麼樣的數據、方法論,以及投入的預算是最優解。即使他把參數給你,你可能也不一定能搞對。
所有因素,如果高層不能很好地與程序員溝通,就會有風險。還有執行層面,數據清洗得好不好;GPU 的並行訓練處理得如何,使得 GPU 的利用率比較低;數據的標註質量是不是足夠好;各個模塊可能有幾百個因素,如果一個因素沒有弄好,要麼浪費錢,要麼訓不出來。
極客公園:要處理這些問題,對於這樣技術公司的 CEO 是一個巨大的考驗。
李志飛:絕對的。在這一刻的起點,首席科學家肯定是最重要的。
極客公園:做這樣一個領軍人物,除了對技術瞭解,也要會殺伐決斷,聚集人才,除此之外還有什麼特性很重要?
李志飛:很難去概括,但是可以類比。比如在硅谷,怎麼判斷一個人是不是非常 technical 或者是很硅谷範兒,你只要問他幾個問題就知道了。
這是認知經驗帶來的交流效率。學術界高手過招也是這樣,比如有些問題我已經冥思苦想了很久,各種辦法都試過,我知道對方也在做這個事情,我們可能只花 5 分鐘交流,就能對齊答案。他可能説一個名詞,説哪一篇論文是可以做這個事情的,或者哪篇論文裏邊哪一部分是可以解決這個問題的,你立刻就知道此人的能力層次。他能思考到這個程度,一定是一個很長的過程。哪怕我們對問題的定義不一樣,雙方至少在這個地方真的是深度思考過。
極客公園:怎麼看目前大模型的競爭環境?時間節點是怎樣的?
李志飛:如何與巨頭競爭,目前還回答不了。頂級投資者更關心的是花多少錢能搞出來,是不是能做成。
在我的想象裏,到明年 6 月,只要你能做出這個 60 分的基礎大模型,哪怕市場上有 5 個,都能進入下一輪競賽。現在要爭分奪秒拿到參賽資格,想太多隻會讓你猶豫,覺得風險太大。如果是做垂直大模型或應用,一點都不要急,慢慢來。
05
現在到了我的主戰場,
一定要參與
極客公園:那你自己是怎麼做決定的?
李志飛:這是我的主戰場,我一定要參與。我讀了多年的 NLP 博士,在 Google 做的也是語言翻譯相關工作,創業十年做語音交互和生成式 AI。現在 NLP 領域有如此大事,中國也需要自己的通用大模型,此時不做,更待何時。
這是我的專業,也是我的熱情,同時也相信能建立深厚壁壘和深遠價值。關於壁壘,我這次去美國之前總覺得 Google 是不是很容易做出 ChatGPT。但跟很多人聊完以後,我意識到這裏邊其實可以建立很多壁壘,Google 要立馬做到 ChatGPT 這種水平也不容易。
極客公園:你也要做中國版的 OpenAI?
李志飛:中國版 OpenAI 只是讓向公眾描述這件事更容易。但最核心,我看好的還是「通用的認知模型」本身。兩年前我就已經着手做大模型了,是國內最早開始認真做大模型的一批。
2020 年,GPT-3 剛出來我們就訓練過一個大模型 GPT-3 中文版 UCLAI,在此基礎上,我們做了文言文和白話文翻譯、古畫生成、音樂合成等方面的實踐,也成功做出了業界 Top1 的配音產品「魔音工坊」等,擁有國內最好的 AIGC 用户量和營收規模,在世界範圍也僅次於 Midjourney 和 Jasper。

李志飛在IF創新大會 2021上分享GPT-3|來源:極客公園
極客公園:現在做大模型,你會有什麼新思考?
李志飛:如果現在我再做通用大模型,得把骨架造得足夠穩定,具有很強可塑性,然後再去精雕。就像造樂山大佛,有了骨架之後,再把鼻子、眼睛、手修得很漂亮。當你真的具備 60 分大學生的能力之後,我們可以通過勤奮把這個大學生培養得非常好。
在此基礎上我還要創新。一切跟着 OpenAI 搞沒有意義,也不一定能跟上,我們要創新。
極客公園:你創業也挺長時間了,過去的經歷,對做今天這個事有什麼意義嗎?
李志飛:過去所有的經歷,都是有益的財富。首先,讓我有更精準的判斷力。第二,更豐富的工程實踐與綜合能力。
現在做這個,我只招最厲害的人做最核心的技術。而且更有長期主義的定力,而不是做短期有進展、長期有消耗的事情。
極客公園:你曾經是科學家,創業這些年之後,有什麼變化嗎?你怎麼定位自己?
李志飛:我是有科學家思維的 CEO。我能跟科學家、工程師深度溝通,與科學家一起制定路線,建立信念,讓整個團隊力朝一個方向使,這也是 OpenAI 能成功的很重要因素。
極客公園:王慧文的聲勢也很強,有了資金後,總能招到優秀的人。你會 care 這件事嗎?
李志飛:人是最重要的因素,每一家創業團隊都會有自己的核心競爭力。但第一階段最重要的是:找到真正懂核心技術的人才,並且能用正確的方式和節奏跟他們合作。
極客公園:你是如何計劃的?
李志飛:短期目標是把一個 60 分的通用大模型給做出來。中長期而言,有了 60 分的基礎模型後,我會花大力去把它打磨成 80 分,從而可以在真正的商業場景裏穩定使用。我的優勢是對通用 AI 技術有非常濃烈的興趣,也對未來技術會怎麼演化有自己的判斷和把握,這使得我能夠在這個賽道里長跑。
我心中已經有清晰路線圖,並看到了那個終局。
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO
極客一問
你覺得還有誰
適合來做 AI 大模型?
