DeepSeek急於推出新AI模型,因為中國全力以赴 | 路透社
Eduardo Baptista,Julie Zhu,Fanny Potkin
Deepseek的標誌在2025年1月27日拍攝的插圖中可見。路透社/Dado Ruvic/插圖/檔案照片北京/香港/新加坡,2月25日(路透社) - DeepSeek正尋求鞏固其優勢。
這家中國初創公司上個月以低價AI推理模型引發了全球股票市場超過1萬億美元的拋售,該模型的表現超過了許多西方競爭對手。
路透社每日簡報通訊提供您開始一天所需的所有新聞。註冊這裏。
現在,這家總部位於杭州的公司正在加速推出1月份R1模型的繼任者,據三位熟悉該公司的人士透露。Deepseek原計劃在5月初發布R2,但現在希望儘早推出,兩位人士表示,未提供具體細節。
該公司表示,希望新模型能夠生成更好的編碼,並能夠使用英語以外的語言進行推理。關於R2發佈加速時間表的細節尚未被報道。
DeepSeek未對此報道請求作出回應。
競爭對手仍在消化R1的影響,R1是使用較不強大的Nvidia芯片構建的,但與美國科技巨頭花費數千億美元開發的芯片具有競爭力。
“DeepSeek的R2模型的發佈可能是AI行業的一個關鍵時刻,”印度科技服務提供商Zensar的首席運營官Vijayasimha Alilughatta表示。DeepSeek在創建具有成本效益的AI模型方面的成功“可能會促使全球公司加速自己的努力……打破該領域少數主導玩家的控制,”他説。
R2 是可能會讓美國政府感到擔憂,後者已將人工智能的領導地位視為國家優先事項。它的發佈可能進一步激勵中國當局和公司,其中數十家公司表示他們已經開始將 DeepSeek 模型整合到他們的產品中。關於 DeepSeek 的信息很少,其創始人梁文峯通過他的量化對沖基金 High-Flyer 成為億萬富翁。梁被前僱主形容為“低調和內向”,自 2024 年 7 月以來沒有與任何媒體交談。路透社採訪了十多位前員工,以及對 DeepSeek 及其母公司 High-Flyer 的運營瞭解的量化基金專業人士。它還審查了國家媒體文章、公司的社交媒體帖子以及追溯到 2019 年的研究論文。
他們講述了一個公司的故事,該公司更像是一個研究實驗室,而不是一個營利性企業,並且不受中國高壓科技行業的等級傳統的束縛,即使它變得對許多投資者所認為的人工智能最新突破負責。
不同的道路
梁於 1985 年出生在廣東省的一個農村村莊。他後來在精英的浙江大學獲得了通信工程學位。
他的第一份工作之一是在上海的一家智能成像公司負責一個研究部門。他的當時老闆周超恩在 2 月 9 日對國家媒體表示,梁聘請了獲獎的算法工程師,並以“扁平化管理風格”運作。
在DeepSeek和High-Flyer,梁同樣避開了中國科技巨頭以自上而下的管理、對年輕員工低薪以及“996”——每週六天從早上9點工作到晚上9點的做法。
梁在距離清華大學和北京大學這兩所中國最負盛名的教育機構步行可達的地方開設了他的北京辦公室。根據兩位前員工的説法,他經常深入技術細節,並樂於與構成其大部分勞動力的Z世代實習生和應屆畢業生一起工作。他們還描述了通常在協作氛圍中工作八小時的情況。
26歲的研究員劉本傑表示:“梁給了我們控制權,把我們當作專家。他不斷提問,並與我們一起學習。”劉在九月份離開了公司。“DeepSeek讓我能夠掌控管道的關鍵部分,這非常令人興奮。”
梁沒有回應通過DeepSeek發送的問題。
在2023年,百度和其他中國科技巨頭競相構建面向消費者的ChatGPT版本,並從全球人工智能熱潮中獲利時,梁去年告訴中國媒體《波浪》説,他故意避免在應用開發上大量花費,而是專注於提升人工智能模型的質量。
根據三位熟悉其薪酬做法的人士,DeepSeek和High-Flyer都以慷慨的薪酬而聞名。在High-Flyer,一位高級數據科學家年薪達到150萬元並不罕見,而競爭對手很少支付超過80萬元,一位瞭解梁的競爭對手量化基金經理表示。
這筆慷慨的資金由高飛者提供,該基金成為中國最成功的量化基金之一,即使在政府對該行業的打壓之後,仍然管理着數百億人民幣,來自行業內的兩位人士表示。## 計算能力
DeepSeek在低成本AI模型上的成功基於高飛者十年來在研究和計算能力上的大量投資,三位人士表示。
該量化基金是AI交易的早期先驅,2020年一位高管表示高飛者將“全力以赴”投入AI,重新投資70%的收入,主要用於AI研究。
高飛者在2020年和2021年花費了12億元人民幣用於兩個超級計算AI集羣。第二個集羣,火飛者II,由大約10,000個Nvidia A100芯片組成,用於訓練AI模型。
當時DeepSeek尚未成立,因此計算能力的積累引起了中國證券監管機構的注意,一位瞭解官員思維的人士表示。
“監管機構想知道他們為什麼需要這麼多芯片?”該人士説。“他們打算如何使用它?這將對市場產生什麼影響?”
當局決定不進行干預,這一舉動對DeepSeek的命運至關重要:美國在2022年禁止向中國出口A100芯片,而此時火飛者II已經在運行。
北京現在慶祝DeepSeek,但根據一位熟悉中國官方思維的人士的説法,已指示其在未經批准的情況下不與媒體接觸。
當局曾要求梁保持低調,因為他們擔心媒體的過度炒作會引起不必要的關注,這位人士表示。
中國的內閣和商務部,以及中國的證券監管機構,沒有回應評論請求。
作為少數擁有大型A100集羣的公司之一,高飛和深尋能夠吸引到中國一些最優秀的研究人才,兩位前員工表示。
“龐大(計算)資源的關鍵優勢在於它允許進行大規模實驗,”前員工劉説。
一些西方人工智能企業家,如Scale AI首席執行官亞歷山大·王,聲稱深尋擁有多達50,000個被禁止出口到中國的高端英偉達芯片。他沒有提供該指控的證據,也沒有回應路透社提供證據的請求。
深尋沒有回應王的指控。兩位前員工將公司的成功歸因於梁對 更具成本效益的人工智能架構的關注。該初創公司使用了混合專家(MoE)和多頭潛在注意力(MLA)等技術,這些技術的計算成本要低得多,其研究論文顯示。
MoE技術將人工智能模型劃分為不同的專業領域,僅激活與查詢相關的部分,而不是使用整個模型的更常見架構。
MLA架構允許模型同時處理一條信息的不同方面,幫助其更有效地檢測關鍵細節。
雖然像法國的Mistral這樣的競爭對手已經開發了基於MoE的模型,但DeepSeek是第一家在實現與更昂貴的模型平價的同時,嚴重依賴這種架構的公司。
分析師在2月初估計,DeepSeek的定價比OpenAI對等模型的收費便宜20到40倍。
目前,西方和中國的科技巨頭已表示計劃繼續大規模投資人工智能,但DeepSeek在R1及其早期V3模型上的成功促使一些公司改變策略。
OpenAI本月降價,而谷歌的Gemini已推出折扣訪問層級。自R1發佈以來,OpenAI還推出了一款依賴於更少計算能力的O3-Mini模型。美國科技服務提供商UST的Adnan Masood告訴路透社,他的實驗室進行了基準測試,發現R1在推理時通常使用的令牌數量,即AI模型處理的數據單位,是OpenAI縮減模型的三倍。
國家擁抱
即使在R1引起全球關注之前,就有跡象表明DeepSeek已經贏得了北京的青睞。1月,國家媒體報道,梁作為AI行業的指定代表參加了與中國總理李強在北京的會議,領先於其他更知名公司的領導人。
其模型的成本競爭力隨之引發的熱潮增強了北京的信心,認為它可以在創新上超越美國,中國公司和政府機構以未曾給予其他公司的速度接受DeepSeek模型。
至少有13箇中國城市政府和10家國有能源公司表示他們已將DeepSeek部署到他們的系統中,而科技巨頭聯想(0992.HK)、百度(9888.HK)和騰訊(0700.HK) - 中國最大的社交媒體應用微信的擁有者 - 已將DeepSeek的模型整合到他們的產品中。新加坡李光耀公共政策學院的中國政策專家阿爾弗雷德·吳表示:“中國領導人習近平和李‘已經表示他們支持DeepSeek’。‘現在每個人都支持它。’”
中國的擁抱正值從韓國到意大利的政府因隱私問題將DeepSeek從國家應用商店中移除。
AI專家、對沖基金卡爾塔基資本創始人斯蒂芬·吳表示:“如果DeepSeek成為中國國家實體的首選AI模型,西方監管機構可能會將此視為進一步升級對AI芯片或軟件合作限制的理由。”
梁承認,進一步限制先進AI芯片是一個挑戰。
他在七月對Waves表示:“我們的問題從來不是資金。‘而是對高端芯片的禁運。’”
- 建議主題:
- 董事會、政策與監管