中國人工智能產業蓬勃發展之際,深度求索(DeepSeek)加速追趕ChatGPT——彭博社
bloomberg
深度求索創始人梁文峯二月在北京與習近平主席會面。
攝影:Florence Lo/路透社身形清瘦、作風低調的梁文峯在會議中常顯得靦腆甚至緊張。這位近期撼動人工智能領域的中國初創企業深度求索的創始人,説話時常有遲疑和長久的沉默。但新員工很快就會發現,不能將他安靜的沉思誤認為膽怯。當梁文峯消化討論中的精微之處後,便會提出關於模型架構、計算成本及AI系統其他複雜環節的精準發問,令人難以招架。
員工們稱梁文峯為老闆——這是中國對商業上級常見的尊稱。不尋常的是,這位老闆會大力授權年輕研究員甚至實習生主導重大實驗項目,習慣性地駐足工位瞭解進展,並推動他們探索非傳統的工程路徑。對話的技術含量越高越好,特別是能帶來實際性能提升的討論——梁文峯常親自在內部飛書頻道同步這些里程碑成果。“他是個真正的技術狂,“一位深度求索前員工表示(與本文多數受訪者一樣要求匿名,因其未獲公司公開表態授權),“有時我覺得他比研究員更懂研究。”
梁和他的年輕公司在1月份突然躍升為國際焦點,當時它發佈了R1,一個給人爆炸性突破感覺的AI模型。R1在多個用於評估AI性能的標準化測試中擊敗了占主導地位的西方參與者,而深度求索聲稱其基礎模型的構建成本僅為GPT-4預估成本的5%左右,後者是支撐OpenAI的ChatGPT的模型。
測試結果引發了美國市場1萬億美元的拋售,並引發了關於美國利用出口管制減緩中國AI進展戰略的棘手問題。亞馬遜和微軟爭相將深度求索的模型加入其雲服務產品,與Meta和Mistral AI的競爭對手並列。“基本上在一個週末內,對深度求索的興趣激增,以至於我們立即採取了行動,”負責亞馬遜公司語言模型市場的阿圖爾·德奧説道。
深度求索澄清了美國人觀察中國AI場景的模糊窗口:籠罩在神秘之中,更容易被視為誇大的幽靈而被忽視,但很可能比他們願意承認的更令人畏懼。在這家初創公司出現之前,許多美國公司和政策制定者持有一種令人安慰的觀點,認為中國仍大幅落後於硅谷,給他們時間準備最終的平等或阻止中國達到這一水平。
美國主導AI投資…
人工智能領域的私人投資
來源:Quid,斯坦福大學AI指數編制
現實情況是,深度求索所在的杭州和其他中國高科技中心已經湧現出許多被稱為"AI小巨龍"的初創企業。本土初創公司如MiniMax和月之暗面開發的複雜聊天機器人迅速走紅,包括在美國市場。阿里巴巴集團控股有限公司的Qwen大語言模型系列在谷歌和Anthropic的LLM排行榜上 consistently 名列前茅;百度公司首席執行官李彥宏在四月份誇口稱,這家搜索巨頭可以開發出與深度求索相媲美但更便宜的模型,這要歸功於其採用自研芯片組裝的新型超級計算機。華為技術有限公司同樣因其設計用於對抗英偉達公司設備的產品而贏得讚譽,後者的圖形處理單元(GPU)為美國和歐洲最先進的人工智能模型提供動力。
…但中國技術正在迎頭趕上
頂級AI模型在LMSYS Chatbot Arena上的性能評估
來源:LMSYS,斯坦福大學AI指數編制
注:Chatbot Arena是由LMArena研究人員開發的通過人類偏好評估AI的開源平台
就在不久前,中國共產黨還在對被視為失控的科技行業進行限制。反壟斷調查和數據合規審查啓動,阿里巴巴聯合創始人馬雲等知名人士淡出公眾視野,社交媒體、零工經濟和遊戲應用也面臨新規約束。如今面對外部干擾,中共正全力扶持本土科技產業。習近平主席正調集資源投向人工智能和半導體領域,激勵中國高技能人才,呼籲建立"自主可控、協同發展"的軟硬件生態系統。
具有諷刺意味的是,推動中國近期突破的正是那些旨在遏制其AI發展的地緣政治限制。Counterpoint科技市場研究分析師孫偉表示,中美AI差距現在以月而非年計。“中國擁有集體主義精神和高強度工作的意願,這造就了執行力的優勢,“孫偉指出,英偉達芯片的強制稀缺反而催生了新型AI創新。“這種態勢形成了一種達爾文式壓力:生存屬於那些能用更少資源做更多事的人。”
在中國看到創新的地方,美國仍有許多人懷疑存在不當行為。眾議院兩黨委員會四月報告指控深度求索與中國政府存在"重大"關聯,稱其非法竊取OpenAI數據,對美國國家安全構成"深遠威脅”。Anthropic公司CEO達里奧·阿莫代伊在一篇3400字博文中呼籲加強出口管制,堅稱深度求索必定走私了大量英偉達GPU,包括最先進的H100芯片。(彭博社近期報道稱美國官方正在調查深度求索是否通過新加坡第三方購買禁運芯片以規避出口限制。)
Anthropic公司CEO達里奧·阿莫代伊以深度求索(DeepSeek)為例,主張加強對華芯片出口管制。攝影:Chesnot/Getty Images中國駐美使館駁斥眾議院委員會的説法"毫無根據”。英偉達表示深度求索的芯片符合出口規定,更多限制反而可能利好中國半導體產業。這家芯片製造商發言人指出,迫使深度求索使用更多中國芯片和服務將"助力華為及外國AI基礎設施供應商”。
處於輿論中心的深度求索公司仍籠罩着神秘面紗。該公司以開源AI技術為榮,卻對其內部運作和真實意圖諱莫如深。其研究論文會披露極其專業的技術細節,卻拒絕透露構建AI的總成本、現有GPU配置或數據來源等基本信息。
“我們無從知曉深度求索的真實動機,它就像個黑匣子”
梁軍(注:此處保留英文名Liang未譯)素以孤僻著稱,中國AI業界領袖私下稱其為"科技狂人”——這個綽號通常用於形容特立獨行且野心勃勃的企業家。過去十個月他未接受任何媒體採訪,直到近期與李克強總理的會議照片流出,人們才得以一睹這位戴着眼鏡、面容稚嫩的創始人真容。對於本文的多次採訪請求,梁軍及其團隊僅通過員工自動回覆郵件表示"感謝對深度求索的關注與支持",稱"問詢正在處理中"。
梁在一月。來源:祖瑪通訊社為了進一步瞭解該公司如何運作以及它如何融入國家更廣泛的人工智能雄心,彭博商業週刊採訪了梁的11名前員工,以及三十多位分析師、風險投資家和接近中國人工智能行業的高管。
缺乏公開露面讓像阿莫代伊和OpenAI負責人薩姆·奧爾特曼這樣的批評者有機會用誹謗來填補空白,這些言論在美國觀眾中引起了共鳴,他們傾向於將中國技術視為一種陰暗的威脅。但即使是那些仍然對DeepSeek持謹慎態度的人,也不得不面對其人工智能不可否認的強大能力。Perplexity AI Inc.的首席商務官德米特里·舍維連科表示,他的公司(生產一款人工智能驅動的搜索產品)沒有一個人成功與DeepSeek的任何同行進行過溝通。儘管如此,Perplexity還是採用了DeepSeek的技術,僅將其託管在美國和歐洲的服務器上,並在訓練後移除任何顯示中共審查的數據集。Perplexity將其命名為R1 1776(參考美國成立的年份),舍維連科稱這是對自由的致敬。“我們不知道DeepSeek的真正動機是什麼,”他説,“這有點像是一個黑匣子。”
DeepSeek曾預見到其人工智能可能會在國外引起擔憂。在2024年3月英偉達開發者大會上一次被忽視的虛擬演講中,DeepSeek的深度學習研究員陳德立談到了價值觀應如何與大型語言模型“解耦”並適應不同社會。在一個冷靜邏輯的幻燈片中,陳展示了一個DeepSeek原型,用於定製由不同背景人羣使用的聊天機器人內置的道德標準。通過快速點擊按鈕,開發者可以設置賭博、安樂死、性工作、槍支所有權、大麻和代孕等問題的合法性。“他們只需要選擇符合他們需求的選項,然後就能享受到專門根據他們的價值觀量身定製的模型服務,”陳解釋道。
尋找這類高效解決方案一直是深度求索的企業文化常態。梁先生與他的朋友們在2000年代中期就讀於浙江大學,研習機器學習、信號處理、電子工程等多個技術領域——顯然既為興趣(當然也為了賺錢),他們在全球金融危機期間開發了股票交易程序。
畢業後,梁先生繼續獨立開發量化交易系統,積累了一定財富後與幾位大學同窗在杭州聯手,於2015年創立了後來聲名鵲起的高飛量化。
早期招聘啓事自豪地宣稱從谷歌和臉書挖來頂尖人才,並尋求具有《生活大爆炸》中謝爾頓那種"古怪天才"特質的數學與編程"極客"。他們承諾提供免費零食、赫曼米勒人體工學椅、撲克之夜、允許穿T恤拖鞋的寬鬆辦公文化,還帶着幾分金融科技兄弟會的調性,宣稱能與"90後温柔可愛的姑娘們"和"從華爾街歸來的犀利女神"共事。
深度求索北京辦公室攝影師:彼得·卡特羅爾/法新社/蓋蒂圖片社與後來的深度求索如出一轍,高飛量化刻意營造神秘感——其首篇社交媒體帖僅以"L先生"稱呼創始人——同時踐行"用實力説話"的透明原則。每週五,高飛量化都會在中國超級應用微信上公佈旗下10支創始基金的業績圖表。在2016年夏季改為僅向註冊投資者披露周度數據前,其投資組合年均回報率高達35%。
最終,數十億美元資金流入高飛資本的資產組合,其投資研究團隊也擴充至逾百人。2019年,梁開始全力籌建人工智能部門,旨在通過挖掘海量數據集來發現被低估的股票、捕捉高頻交易的微小价格波動以及行業投資者忽視的宏觀趨勢。到新冠疫情爆發初期,他和團隊已構建出由協同運行的互聯處理器組成的高性能計算系統——這種架構被稱為集羣。高飛資本宣稱,該集羣配備了1000塊英偉達2080Ti芯片(遊戲玩家和3D設計師常用型號)及額外100塊Volta系列GPU(Volta即V100,是英偉達首款專為AI優化的處理器)。此前高飛資本的小型計算架構需要兩個月訓練新經濟分析模型,而新設備處理相同任務僅需不到四天。
這些金融模型雖令人矚目,但規模遠小於OpenAI等美國機構正在構建的通用模型。梁力主建造由英偉達當時新推出的A100 GPU(V100的升級版)組成的超大規模超級計算機。參與該項目的高飛前工程師透露,梁是這台不斷擴容的集羣"最大單一用户",估計80%用於模型開發的算力都分配在其用户名下。這位前工程師表示,梁似乎對深度學習極為痴迷,稱其為"他昂貴的愛好"。對量化公司而言,投入數億美元建設此類AI基礎設施或許大材小用,但梁創造的利潤足以輕鬆承擔。“對當時的梁來説只是小錢,“工程師回憶道,“算力越強,模型越優,交易收益越高。”
至少這是當初的願景。當時管理着約141億美元資產的High‑Flyer,在2021年12月給利益相關者的信中為連串令人失望的回報道歉。該公司將業績下滑歸咎於其AI系統,稱這些系統雖能選出優質股票,卻未能在疫情期間的市場波動中精準把握賣出時機。即便如此,他們決定對AI加碼豪賭:2022年1月,High-Flyer在社交媒體宣佈已囤積5000塊英偉達A100芯片(每塊通常價值數萬美元)。同年3月,其集羣規模擴大至1萬塊——僅僅六個月後,英偉達就警告美國新規可能影響此類芯片對華出口。
尚不清楚這些基礎設施中有多少真正用於量化交易,又有多少投入了梁的燒錢愛好。次年春天,在OpenAI推出ChatGPT約五個月後,他將深度求索(DeepSeek)拆分成為獨立實驗室。位於杭州和北京的辦公場所不再聚焦金融業務。在一份充滿陳詞濫調的未署名宣言中,High-Flyer誓言要拒絕平庸,攻克AI革命中最艱鉅的挑戰。其終極目標是:人工通用智能。
本文刊登於2025年6月*《彭博商業週刊》*。立即訂閲。插圖:7312023年全年,深度求索實驗室爭分奪秒地開發AI編程助手、通用知識聊天機器人及文本轉3D藝術生成器。梁從High-Flyer調來工程師,又從微軟北京辦公室及中國頭部科技企業和高校招募更多人才。9月以學生研究員身份加入(後攻讀博士學位)的劉博(Benjamin)回憶,梁常將其他公司會交給資深員工的關鍵任務派給實習生。“以我為例:入職時沒人負責RLHF基礎設施(支持人類反饋強化學習技術的關鍵架構),他就直接交給我做。“劉博説,“他敢讓你嘗試無人涉足的領域。"(這種信任還給深度求索帶來額外優勢:實習生日薪140美元外加420美元住房補貼,這待遇在中國很優厚,但僅為美國AI公司實習生收入的三分之一,與硅谷全職工程師薪資更是相差甚遠。)
據兩位前深度求索研究員透露,梁氏很早就對稀疏化技術下了重注——這種通過將大語言模型拆分為專業模塊來提升訓練和運行效率的技術。當你向初代ChatGPT提問時,無論問題是"2+2等於幾"還是"派的做法”,其整個大模型都會激活來尋找最佳答案。相比之下,稀疏模型會將資源劃分為多個"專家"模塊,僅針對特定指令激活相關模塊,從而更高效地利用資源。
稀疏化方法能大幅節省算力成本,但實現難度極高。如果問題未能激活足夠的神經迴路或被錯誤分配到功能模塊,回答質量就會下降(例如數學模塊知道如何在公式中使用圓周率π,卻不清楚蘋果派的配方)。梁注意到谷歌和法國獨角獸Mistral在該領域的進展——後者於2023年12月發佈的稀疏模型已實現八個專家模塊架構,能根據語境自動激活兩個最相關模塊。他隨即帶領團隊設計更多專家模塊的模型,但這種技術可能加劇AI幻覺效應並導致知識碎片化。“這在內部引發了激烈爭論,“前深度求索員工透露。
隨着後續突破不斷公開,中國同行開始密切關注。2024年末,深度求索發佈V3模型,這個通用AI模型的參數量比當時最大的開源大模型——Meta公司同類產品還多出約65%。但真正讓谷歌、OpenAI和微軟高管震驚的,是在R1推理模型引發廣泛關注前一個月發佈的V3技術論文。其中一項數據令人瞠目:深度求索暗示V3總開發成本僅560萬美元。這個數字可能僅指最終訓練階段(將模型原型轉化為成品的優化過程),但多數人認為這對整個項目而言低得離譜。相比之下,前沿模型的累計訓練成本常超1億美元。Anthropic公司CEO阿莫迪(在深度求索崛起前)甚至預測新一代模型的訓練成本將達100-1000億美元。
廣受歡迎的AI平台Hugging Face公司研究主管萊安德羅·馮·韋拉表示,DeepSeek的"架構創新"並非其模型最突出的特點。該公司負責大語言模型排名,他認為從研究論文中最大的發現是,該公司必定開發了高質量數據——無論是從網絡巧妙清理還是通過其他方式提取——才使V3得以問世。“沒有非常強大的數據集,模型就會缺乏性能,“馮·韋拉説。“報告清楚地表明,DeepSeek擁有目前最優秀的大語言模型訓練數據集之一。可惜報告在50頁中僅用半頁篇幅描述數據集。”
DeepSeek展現出快速進步,因為梁家恩將開源精神視為其理念的核心。他認為,像OpenAI和谷歌等美國頂級實驗室那樣隱藏專有技術並對強大模型收費,是以短期優勢犧牲更持久的成功。將模型完全公開且基本免費,是DeepSeek加速技術採用、讓初創企業和研究人員在其技術上構建的最有效方式。希望這將形成產品消費和反饋的良性循環。正如DeepSeek近兩年前在首個公開大語言模型公告中引用開源操作系統Linux發明者的話:“空談無益,給我看代碼。”
“基本上他們並不缺錢。隨着‘六小龍’的熱炒,人們正爭相向他們砸錢”
四月一個陰沉的週日,在杭州繁忙的蕭山國際機場,阿里巴巴、字節跳動和華為宣傳AI服務的數字廣告牌迎接着抵達的乘客。航站樓內,一個藍髮人形機器人揮手向旅客致意。停機坪上,一家自動駕駛初創公司正在測試用於貨物轉運的小型無人卡車。儘管深度求索聲名鵲起,西方人似乎忘了它只是中國眾多“硅谷”中崛起的AI巨龍之一。僅在擁有1250萬人口的超大城市杭州,深度求索就屬於一個被稱為“六小龍”的精英科技初創企業羣體。
在風景如畫的西湖區,有因使用機器學習技術讓遊戲角色更逼真而備受讚譽的熱銷動作遊戲《黑神話:悟空》背後的爆紅工作室遊戲科學。不遠處坐落着兩家機器人巨頭和一家專注3D空間軟件的獨角獸企業。同處附近的浙江強腦科技(BrainCo)堪稱中國版Neuralink,其前身是中國籍博士韓璧丞在哈佛大學孵化的項目,如今正在杭州附屬實驗室開發腦控電腦技術的仿生肢體。BrainCo的一款AI智能義肢目前正於杭州另一新興科技地標——中國人工智能小鎮展覽中心展出。
據一位參與活動的人士透露,最近幾周,BrainCo的領導人一直在展覽中帶領參觀。參觀者往往有意投資,但這些科技精英顯然對外部資本並未表現出迫切需求。“基本上他們並不缺錢,“一位參與參觀的基金經理表示,“隨着’六小龍’概念的熱炒,人們正爭相向他們投錢。”
靜靜站在這些初創企業背後的是習近平主席領導的政府。據中國官方報道,生成式人工智能、機器人技術和其他高科技抱負正推動着國家議程,習近平在最近的政治局會議上強調,首要目標是實現國內"自立自強”。“我們必須認清差距,加倍努力全面推進技術創新、產業發展和人工智能賦能應用。”
這些"龍"企業正在傾聽,而且並非都那麼"小”。市值3000億美元的阿里巴巴集團主園區坐落於杭州西湖以西約40分鐘車程的區域,這片廣闊的園區內甚至擁有專屬湖泊。該公司近期承諾未來三年將投入530億美元建設更多AI數據中心,並宣稱其最新通義千問3.0旗艦模型的性能與成本效益已媲美深度求索。在國際視野中,阿里巴巴通常被視為電商企業,但其增長更快的AI和雲業務已於2022年拆分至杭州郊區的獨立總部。會議室裏的大屏幕每72小時更新的"行業洞察快報”,詳細記錄着深度求索、OpenAI等競爭對手的最新成果。就連洗手間也設有每週更新的版本,提醒着科技工作者:即便在如廁時刻,AI競賽也從未停歇。
今年四月,幾乎在五年前中共打壓中國科技行業期間銷聲匿跡的阿里巴巴聯合創始人馬雲,重新出現在公司園區,慶祝其雲計算部門成立15週年。據幾位目擊者稱,馬雲在這場罕見的演講中表示,他希望人工智能服務於人類,而非凌駕於人類之上。通過香港和東京辦公室觀看直播的與會者表示,他們對馬雲的成功迴歸感到振奮。
這提醒人們,像馬雲這樣的科技明星顯然重新獲得了中共的青睞——並與梁等後起之秀一起——儘管美國科技領袖的光環正在褪去。中國國內日益高漲的民族自豪感,正迫切希望展示其能夠克服西方設置的障礙。總部位於香港的政策諮詢公司亞洲集團董事總經理陳喬治表示,中國頂尖工程師在蘋果、谷歌、微軟等領先美國公司工作一段時間後,已開始回國。雖然特朗普政府的敵意是部分原因,但他們也被一種感覺所吸引,即真正的行動可能正在向東方轉移。“硅谷對中國人才來説不再是一個有吸引力的工作地點,”陳説。
另一家中國獨角獸公司01.AI的創始人李開復更進一步。作為蘋果、谷歌和微軟的老將,李開復表示,新一代人才不再像他那樣先在美國公司工作,然後在中國創立自己的公司。“這些年輕的AI工程師大多是本土培養的,”他説。“深度求索的成功,以及其他新興AI初創企業的成功,正在激勵更多年輕人才成為中國AI復興的一部分。”
梁(中)出席2月在北京舉行的研討會。攝影師:Florence Lo/路透社當今中國沒有哪家科技公司能像深度求索這樣激發如此強烈的自豪感。4月,27歲的加拿大計算機科學家柯比·馮(Kirby Fung)攜家人遊覽杭州時,特意帶他們參觀了梁的母校浙江大學。馮曾在該校交換學習,他想向祖父母和弟弟展示自己與梁同校的經歷。“能告訴加拿大的朋友們深度求索的創始人是我校友,這感覺太酷了,“馮説道。
遊客和網紅博主們經常造訪深度求索總部——這座由四棟大廈組成的建築羣毗鄰著名的京杭大運河。遊客們會在周邊商鋪尋找梁的蹤跡,包括深度求索大廈內一家員工常去的高檔火鍋店。(前台不得不反覆告知:他從未光顧過。)
熟悉梁的人透露,他常往返於杭州和北京辦公室之間。北京辦公室位於科技園區玻璃幕牆大廈的五層,二十多歲的程序員們在可升降辦公桌前埋頭編碼,茶水間堆滿能量飲料、康師傅方便麪和辣條。白板上寫滿了員工加餐的需求。“在那兒吃了幾個月午晚餐,我都胖了,“一位近期離職的研究員説。
梁極少接見外人,即便同意會面有時也以全息投影形式出現。他婉拒了參加今年極具影響力的巴黎AI行動峯會的邀請,這場活動吸引了OpenAI的奧爾特曼、Alphabet兼谷歌CEO皮查伊以及多位國家元首出席。
當中國為深度求索(DeepSeek)歡呼時,美國卻將其視為水源中突然出現的陌生有機體,反覆檢測其屬性是良性還是惡性。批評者指控該公司受中共操控,竊取美國競爭對手的訓練數據,並參與某種旨在顛覆硅谷AI霸權的大型間諜行動或心理戰。“深度求索是將美國科技業直接輸送給中共監控國家的管道,不僅威脅美國公民隱私,更危害國家安全,“美國國會調查深度求索委員會的發言人表示。
然而深度求索將自己定位為與任何熱門初創企業無異——其在2月的X平台發文中自稱是"純粹車庫能量"“的產物。畢竟它與谷歌共處北京同一園區,距離漢堡王和兩家提姆霍頓斯咖啡僅咫尺之遙。AI業界此前未重點關注深度求索,並不意味着幕後存在可疑操作。“AI界低估了深度求索,“投資過OpenAI和商湯科技的風投公司Alpha Intelligence Capital合夥人阿諾·巴泰勒米表示,“他們本該更警惕。”
巴泰勒米指出,深度求索帶來的真正啓示在於中國科技公司如何巧妙將運營限制轉化為優勢。“中國有大量人才能用低得多的算力實現卓越創新,“他評價道。
確實,在2023年5月——恰逢深度求索公司成立的同月,英偉達CEO黃仁勳向《商業週刊》表示,美國對中國的過度管制只會激勵後者通過創新突破阻礙。他將經濟影響力描述為國家安全的有效工具,並強調政府幹預帶來的意外後果將十分嚴重。“失去科技行業三分之一的市場無疑是災難性的,“他談到限制對華技術出口的風險時説,“他們將在沒有競爭的情況下蓬勃發展。他們會壯大起來,並將技術出口到歐洲、東南亞。”
“必須警惕競爭推進的邊界,“黃仁勳繼續指出,“突然之間,對方的反應會變得難以預測。一無所有的人往往會做出令人震驚的反擊。”
英偉達黃仁勳認為出口管制最終可能強化中國實力。攝影師:David Paul Morris/彭博社關於深度求索的關鍵爭議點在於其模型研發的實際投入。美國研究機構SemiAnalysis在廣為引用的報告中估算,高瓴資本與深度求索可能擁有約5萬塊英偉達頂級H系列GPU組成的計算集羣,價值14億美元,這些資源大多未對外公開。該機構表示,其中大部分是符合出口管制要求的GPU(美國政府允許英偉達向中國出售經過性能限制的H20和H800芯片以符合白宮規定),但該諮詢公司同時聲稱深度求索還額外獲取了1萬塊被美國政府禁售的尖端H100芯片。
三位前員工強烈否認這些説法,稱深度求索實際擁有的GPU不足2萬塊,且多為英偉達舊款芯片及受出口管制的型號。“他們在散佈謊言,“博士生劉波如此評價SemiAnalysis的報告。該研究機構則表示堅持其結論。
毋庸置疑的是,深度求索必然渴望獲得美國科技公司級別的算力規模。該公司似乎自信能比硅谷更高效利用這些資源。“現實情況是,大語言模型研究者對計算資源有着巨大胃口——如果我手頭有幾萬塊H系列GPU,可能也會變得奢侈,開展許多並非絕對必要的實驗,“一位前深度求索員工坦言。但獲取更多資源正是中國科技從業者願意應對的挑戰。“希望有朝一日我們中國企業能擁有五萬塊GPU,“這位已加入北京某開源AI實驗室的研究者説,“想看看我們能創造什麼奇蹟嗎?” ——奧斯汀·卡爾*、薩里塔·拉伊與黃哲平,丁璐、車克萊爾、馬特·戴及**傑基·達瓦洛斯*聯合報道