李開復最新專訪,談如何降低Yi-34訓練成本、美國市場_風聞
BImpact-宇婷,To B行业观察者、资深媒体人、博主。-2小时前

根據創業投資家、前谷歌中國總裁、今年早些時候創辦了位於北京的大型語言模型開發初創公司01.AI的李開復的説法,中國的生成型人工智能初創公司正在經歷“預選賽階段”。上個月,該公司以10億美元的估值完成了一輪融資。
中國最大的互聯網公司,如阿里巴巴、騰訊、百度和字節跳動,以及數十家初創公司,都在開發自己的大型語言模型,當地媒體將其描述為“百模之戰”。由於中國政府封鎖了OpenAI、谷歌和其他美國互聯網服務,國內公司正爭奪人工智能的霸主地位。李開復在接受採訪時表示,公司目前正處於試圖證明自己具備構建高質量模型的技術的階段。那些通過了這一測試的公司將進入下一階段,這將涉及如何增加收入並最終實現盈利。
要點:風險投資家李開復在採訪中談到了他位於北京的人工智能初創公司01.AI,以及中國人工智能行業的未來以及為什麼中國公司可能會在中東找到商機。
李開復的公司成立於今年3月,現在擁有100多名員工,大部分位於中國大陸,主要是北京。上個月,01.AI推出了其第一個開源語言模型Yi-34B,但該公司不會依賴該模型來獲取未來的收入。相反,它的商業計劃是銷售專有的語言模型,主要面向中國的客户。據李開復稱,該公司目前正在開發一個擁有超過1000億參數的新的專有模型。
上個月,Yi-34B迅速攀升至Hugging Face開源語言模型排行榜的首位,引發了一些爭議。開發者的詢問揭示出Yi-34B使用了Meta Platforms的Llama開源AI模型,但沒有提及Llama。最終,01.AI將Yi-34B的部分重命名以致謝Llama,並對此事進行了道歉。詳情請參閲此處。
李開復在北京的辦公室通過視頻通話接受了《The Information》的採訪,他談到了01.AI如何應對美國政府對芯片出口的限制,以及中國人工智能公司在全球的機會。以下是經過編輯的問答內容。
《The Information》:目前中國擁有數十家甚至更多開發大型語言模型的國內競爭對手。接下來會發生什麼?
李開復:我認為中國在以前的很多情況下都經歷過這種情況,比如Groupon的仿製品、共享單車應用,以及在深度技術領域的計算機視覺和語音識別。當計算機視覺被證明取得重大突破時,中國的每個人都紛紛加入,並嘗試用各種可能的應用。但其中大多數都沒有生存下來。中國市場是一個非常非常競爭激烈的市場,甚至可能比美國還要激烈。
目前中國的競爭仍處於預選賽階段。第一個測試是:在這100家公司中,哪一家能夠創建出具有真正價值的高質量模型?這意味着要展現出良好的性能,因為在提供有用內容和戰略洞察方面,技術的優劣仍然是至關重要的。如果你沒有足夠好的模型,那麼它更像是一個玩具,而不是一個解決實際問題的技術。
在預選賽階段通過技術測試的公司將進入下一個階段,即商業價值。你的商業模式是什麼?你如何賺錢?很快,這些公司將根據其損益報表進行評估,投資者將問與雲服務提供商、企業軟件公司和消費者應用程序相同的問題。如果公司無法回答這些問題,它們的增長將停止。在美國,OpenAI已經證明了其世界領先的技術,它也能夠產生收入。OpenAI創造了足夠的價值,以至於人們在其上構建應用併為此付費。
在中國,最終會有幾家大贏家,幾家不錯的退出,但大多數公司最終要麼會退出市場,要麼會轉向更為保守的領域,例如為特定行業構建應用程序和解決方案,而不是嘗試預訓練的大型模型,因為這類模型的成本將隨時間增加。
中國人工智能初創公司及其投資者表示,中國將與美國分開發展生成型人工智能模型和應用的生態系統。你怎麼看?
我們都不希望出現平行宇宙。我們更喜歡在全球範圍內競爭,讓最好的公司獲勝。這樣更加高效。但在這種情況下,我們無法控制我們的命運。
尤其存在地緣政治問題。如果我們想進入美國市場,雖然沒有規定説我們不能進入,但由於當前對中國軟件的(我認為是不公平的)看法,我認為我們不會獲得很多業務。所以這只是我們接受了的實際情況。
各國希望對自己的模型擁有更多控制權。
我確實認為有機會為不同的國家構建特殊的模型。這是硅谷公司自然不會去做的事情。為不同的市場構建不同的模型是一項龐大的工程任務。因此,硅谷公司自然不會傾向於構建這些模型。而來自世界其他地區的公司,包括中國,可能有機會研究這些模型。當然,他們必須贏得用户和各國政府的信任。
中國媒體報道稱,您的初創公司成功降低了Yi-34B的人工智能訓練成本。如何做到的?
我們擁有一個非常強大的基礎設施團隊。這是我們團隊中最大的一部分。我早些時候告訴我的員工,每當你增加一個建模人員,你就在稀釋你的[圖形處理單元]。每當你增加一個基礎設施人員,你就能更好地利用你的GPU。當然,你需要一個強大的建模團隊,但從一開始,我們就把建立一個強大的基礎設施團隊作為首要任務。
基礎設施是默默無聞的英雄之工作。他們必須處理硬件、軟件和大量的數據傳輸。他們同時處理GPU、內存和網絡,其中任何一個都可能成為瓶頸。
GPU很難擴展到數千個以上。當你從2000個擴展到8000個時,你不能只運行現有的軟件,因為隨着模型和數據規模的增大,網絡需求會發生巨大變化。
我們的基礎設施團隊由幾十名工程師組成,目前是01.AI最大的團隊。例如,我們的基礎設施團隊所做的工作包括全面使用FP8——Nvidia H100芯片的一種數據格式,從而大幅減少計算量。團隊找出了在哪些地方可以使用FP8,在哪些地方可以使用其他類型,並且如何無縫轉換。他們還處理了像使用哪種網絡協議、如何優化編譯器以及如何處理故障GPU等問題。GPU的故障率實際上相當高。當一個GPU故障時,你能熱插拔嗎?拔掉?我們仍在努力解決這個問題。如果你的訓練因為一個GPU在千個GPU集羣中故障而停止一個小時,能夠熱插拔將節省你每天一個小時的時間。這些小事情都會累積起來。
另一個相關的問題是彈性訓練。這意味着如果你有一個由2000個H100芯片組成的集羣,並且你需要500個用於其他任務,你能在檢查點之間移除它們,然後再添加回來嗎?這些任務與AI研究人員的訓練並不相關,更與網絡工程師有關。
如果LLM的開發是火箭科學,那麼沒有工程師,火箭將永遠無法起飛。SpaceX之所以成功,並不僅僅因為一羣研究人員,而是因為它有一大批非常複雜、錯綜複雜的工程師。
對於Nvidia芯片。您是如何應對的?
我公開表示,我們有足夠的芯片供應可以維持18個月的時間。這基本上是之前我們購買的芯片。我們肯定在努力研究如何使用中國芯片。
Nvidia的芯片非常出色,但有人可能會爭辯説,一個更簡單的芯片可以以更低的成本完成工作。但Nvidia的強大之處在於其圍繞CUDA軟件庫建立的整個生態系統,使得編程變得簡單。如果強迫工程師使用非Nvidia芯片,他們的工作效率會大大降低,他們基本上會反對這樣做。但我們現在面臨的問題是在18個月內,我們必須開始得更早。如果我們無法獲得Nvidia芯片,我們將尋找更專注於transformers的更簡單的芯片,但編程將變得非常困難。但如果我們別無選擇,那我們就別無選擇。
但是中國工程師以能力強、肯做苦工而著稱。這與我之前關於我們基礎設施團隊的工作所説的類似。
中國的創業者堅韌不拔。中國的工程師勤奮努力,他們不怕苦。這正是美團打造卓越服務的原因,也是微信成為卓越產品的原因。
是的,這些都是困難的挑戰,你可以説它們是浪費時間和許多人的精力。但這就是我們面臨的現實,所以我們會盡力發揮我們的優勢。