DeepSeek首度公開R1模型訓練成本僅為29.4萬美元,“美國同行開始質疑自己的戰略”
赖家琪
【文/觀察者網 王一】DeepSeek今年年初以高性價比、高性能、開源驅動等特點驚豔了世界。其團隊近日在英國《自然》雜誌發表論文首次披露,DeepSeek-R1模型的訓練成本僅為29.4萬美元,構建基礎大語言模型也只花費了約600萬美元,這一成本已遠遠低於美國同行透露的數字,而那還只是美國公司公佈出來的大概成本。
英國路透社9月18日指出,DeepSeek的成本遠低於美國競爭對手此前透露的數字,這一信息可能會再次引發外界圍繞中國在全球人工智能(AI)領域地位的討論。印度新聞網站“Devdiscourse”19日也稱,DeepSeek首次提供成本數據,引發了美國公司對自己戰略的質疑。
美國有線電視新聞網(CNN)、美國彭博社等美媒19日都對DeepSeek的29.4萬美元訓練成本感到驚訝。美國消費者新聞與商業頻道(CNBC)評價説,考慮到OpenAI花了多少錢,DeepSeek的成本簡直“驚人(astonishing)”,他們的模型已經推翻了只有擁有最先進、最快芯片的國家才能在AI競賽中佔據主導地位這一假設,現在他們甚至用數字對此進行了量化。
17日,《自然》雜誌刊登了由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文。與今年1月發佈DeepSeek-R1時的初版論文相比,最新的論文披露了更多模型訓練的細節,也標誌着該模型成為全球首個經過同行評審的主流大語言模型。
最新的論文披露,DeepSeek-R1模型使用了512塊英偉達H800芯片,訓練成本僅為29.4萬美元。
路透社稱,今年1月的早期論文並未包含相關信息。大型語言模型的訓練成本通常是指,用高性能芯片集羣處理海量文本和代碼所產生的鉅額費用。OpenAI首席執行官薩姆·奧爾特曼2023年曾透露,基礎模型訓練成本“遠超”1億美元,但他的公司從未公佈過具體的數據。

當期《自然》雜誌封面
該論文還對之前美國官員的一些毫無根據的質疑做出了回應。為打壓中國AI發展,美國政府2022年就禁止英偉達向中國出口具備先進性能的H100和A100芯片。DeepSeek的AI大模型公佈後,美國官員不相信中企可以用被“閹割”過的、英偉達專為中國市場設計的H800芯片訓練出如此高性能的AI模型。
於是,今年6月,美國官員污稱,DeepSeek在美國出口管制後違規獲取了“大量” H100芯片並將其用於大模型訓練。英偉達當時回應稱,DeepSeek所使用的是合法採購的H800芯片,而非H100芯片。
在《自然》論文的補充材料中,DeepSeek首次承認其確實擁有A100芯片,稱曾在研發前期使用這些芯片“為較小模型的實驗做準備”,但在這之後,R1模型在512塊H800芯片集羣上進行了總計80個小時的訓練。
DeepSeek還在論文中首次間接回應了今年1月來自白宮高級顧問和部分美國AI業內人士的指控——他們聲稱DeepSeek通過“蒸餾”技術“違規復制”OpenAI產品功能,並宣稱已經發現“證據”。但此後,這些所謂的“證據”從未被公開。
蒸餾的理論核心是,讓一個龐大且複雜的預訓練AI模型充當“教師”,來訓練一個較小的“學生模型”,後者從“教師模型”學習知識,以獲得類似性能,但計算成本更低。不少專家表示,蒸餾在AI業內是一種常見的做法,但若涉及直接複製閉源專有模型的輸出結構或參數,可能構成侵權。
DeepSeek一直為蒸餾技術辯護,認為該方法不僅能提升模型性能,還能顯著降低訓練和運行成本,從而擴大AI技術的普及範圍。今年1月,該公司就提過,他們使用了美國科技公司Meta的開源AI模型Llama來構建其模型的部分精簡版本。
在9月17日的論文中,DeepSeek表示,其V3模型的訓練數據來源於網絡爬取,其中包含“大量由OpenAI模型生成的回答,這可能會導致基礎模型間接從其他強大模型中獲得知識”。不過,DeepSeek強調這並非刻意為之,而是無意中的結果。
參與審閲該論文的Hugging Face機器學習工程師路易斯·湯斯頓(Lewis Tunstall)認為DeepSeek的解釋有道理,其他實驗室後來用類似的方法成功複製了R1模型的效果,這表明其他AI模型不需要所謂來自OpenAI的秘密數據就可以獲得極高的推理能力。
科技諮詢網站“Tech Space 2.0”也分析稱,DeepSeek的數據策略是使用最大量的免費數據進行預訓練,並巧妙使用自己生成的數據進行微調,只在計算上花錢,這種節儉的策略是其他公司目前正在深入研究的模板。
該網站指出,DeepSeek-R1在同類產品中脱穎而出,是因為他以極低的成本實現了最先進的成果。OpenAI的GPT-4和谷歌的AI模型“雙子座(Gemini)”在某些方面仍然處於領先地位且享有強大的企業支持,但R1以一種此前從未見過的方式實現了“高端AI的民主化”——開放、複製成本相對低廉、高度注重效率。Meta的Llama2和法國科技初創企業米斯特拉爾AI公司(Mistral AI)的模型都秉承開放理念,但R1通過實現頂級性能將這一理念推向了新的高度。
“Tech Space 2.0”總結道:“這些比較強調了一個關鍵點:AI競爭不再僅僅關乎誰擁有最多的圖形處理器(GPU),現在還關乎誰能用更少的資源實現更多的目標。從這個角度來看,DeepSeek已經改變了遊戲規則。”
本文系觀察者網獨家稿件,未經授權,不得轉載。