FONDO DeepSeek急於推出新模型,同時中國全力投入人工智能 | 路透社
Eduardo Baptista,Julie Zhu,Fanny Potkin
檔案照片:Deepseek的標誌出現在這張2025年1月27日拍攝的插圖中。路透社/Dado Ruvic/插圖/檔案照片北京/香港/新加坡,2月25日(路透社) - DeepSeek希望發揮其優勢,並正在加速推出1月份的R1模型的繼任者,據三位熟悉該公司的人士透露。
這家中國公司上個月通過推出一種更便宜的人工智能推理模型,導致全球股票市場價值下降超過一萬億美元,超越了許多西方競爭對手。
總部位於杭州的Deepseek原計劃在5月初推出R2,但現在希望儘快推出,兩位知情人士表示,但沒有提供具體細節。
該公司希望新模型能夠更好地編碼,並能夠用除英語之外的其他語言進行推理。到目前為止,尚未有關於R2發佈日程加速的報道。
DeepSeek未對此文章的評論請求作出回應。
競爭對手們仍在消化R1的影響,R1是用較不強大的Nvidia芯片構建的,但與美國科技巨頭開發的成本高達數千億美元的芯片競爭。
印度技術服務提供商Zensar的首席運營官Vijayasimha Alilughatta表示:“DeepSeek的R2模型發佈可能是人工智能行業的一個關鍵時刻。” DeepSeek在創建經濟實惠的人工智能模型方面的成功“可能會推動全球各地的公司加速自己的努力……打破這一領域少數主導參與者的壟斷。”
R2可能會讓美國政府感到擔憂,因為他們已將人工智能的領導力視為國家優先事項。它的發佈可能會進一步使中國的當局和企業受到影響,其中數十家聲稱已開始將DeepSeek模型整合到他們的產品中。
關於DeepSeek知之甚少,其創始人梁文峯通過其量化對沖基金High-Flyer成為億萬富翁。梁被前僱主形容為“低調和內向”,自2024年7月以來未與任何媒體交談。
路透社採訪了十多位前員工,以及瞭解DeepSeek及其母公司High-Flyer運營的量化基金專業人士。還審查了自2019年以來的國家媒體文章、企業社交媒體發佈和研究文件。
證詞講述了一個公司的故事,該公司更像是一個研究實驗室,而不是一家營利公司,並且不受中國高壓科技行業的等級傳統的約束,然而,它仍然成為許多投資者認為的人工智能最新突破的負責人。
不同的道路
梁於1985年出生在南方廣東省的一個農村。後來,他在浙江大學獲得了通信工程學位。
他早期的一個工作是領導一家上海智能影像公司的研究部門。他的當時老闆周超恩在2月9日對國家媒體表示,梁聘請了獲獎的算法工程師,並採用“扁平化管理風格”。
在DeepSeek和High-Flyer,Liang遠離了中國科技巨頭的做法,這些公司以其嚴格的等級管理、年輕員工的低工資和“996”工作制而聞名,即從早上9點到晚上9點,每週工作六天。
Liang在距離清華大學和北京大學不遠的地方開設了他的北京辦公室,這兩所大學是中國最負盛名的教育機構。根據兩位前員工的説法,他曾深入探討技術細節,並樂於與Z世代的實習生和剛畢業的學生合作,他們構成了他團隊的主要部分。他們還描述説,通常在一個合作的環境中工作八小時。
“Liang給了我們控制權,把我們當作專家。他不斷問我們問題,並與我們一起學習,”26歲的研究員Benjamin Liu説,他在九月份離開了公司。“DeepSeek讓我負責管道的關鍵部分,這非常令人興奮。”
Liang沒有回應通過DeepSeek發送的問題。
當百度和其他中國科技巨頭在2023年急於構建其消費者版本的ChatGPT並利用全球人工智能的熱潮時,Liang去年對中國媒體Waves表示,他故意避免在應用開發上花費過多,轉而專注於提升人工智能模型的質量。
根據三位熟悉其薪酬實踐的人士,DeepSeek和High-Flyer都以慷慨的薪酬而聞名。在High-Flyer,高級數據科學家年薪達到150萬元並不罕見,而競爭對手很少支付超過80萬元,一位瞭解Liang的競爭基金經理表示。
慷慨是由高飛者資助的,該基金成為中國最成功的量子基金之一,甚至在政府對該行業進行攻勢之後,仍然管理着數千億人民幣,來自兩位行業人士的消息。
計算能力
DeepSeek在低成本AI模型上的成功,基於高飛者在過去十年中對研究和計算能力的重要投資,三位人士表示。
該量子基金是最早在AI交易中開拓的先驅之一,一位高管在2020年表示,高飛者在AI方面“全力以赴”,將70%的收入再投資,主要用於AI研究。
高飛者在2020年和2021年花費了12億人民幣用於兩個AI超級計算集羣。第二個集羣,Fire-Flyer II,由大約10,000個Nvidia A100芯片組成,用於訓練AI模型。
在那時,DeepSeek尚未成立,因此計算能力的積累引起了中國證券監管機構的注意,一位瞭解官員思維的人士表示。
“監管機構想知道他們為什麼需要這麼多芯片,”該人士説。“他們打算如何使用這些芯片?這對市場會產生什麼影響?”
當局決定不進行干預,這一舉動對DeepSeek的命運至關重要:美國在2022年禁止向中國出口A100芯片,而此時Fire-Flyer II已經投入使用。
北京現在正在慶祝DeepSeek,但根據一位熟悉中國官方程序的人士的説法,已命令其在未經批准的情況下不要與媒體接觸。
當局曾要求梁保持低調,因為他們擔心媒體的過度宣傳會引起不必要的關注,這位人士表示。
中國內閣和商務部,以及中國證券監管機構,沒有回應評論請求。
作為少數擁有大型A100集羣的公司之一,High-Flyer和DeepSeek能夠吸引到一些中國頂尖的研究人才,兩位前員工表示。
“大型資源(計算)的主要優勢在於它們允許大規模實驗,”一位前員工劉説。
一些西方AI企業家,如Scale AI的首席執行官Alexandr Wang,聲稱DeepSeek擁有多達50,000個高端Nvidia芯片,而這些芯片的出口到中國是被禁止的。Wang並沒有提供其主張的證據,也沒有回應路透社的請求以提供這些證據。
DeepSeek沒有回應Wang的指控。兩位前員工將公司的成功歸因於梁專注於更具成本效益的AI架構。
- 建議主題:
- 科技