中國DeepSeek發佈低價大模型性能比肩OpenAI o1 | 聯合早報

zaobao

2025-01-25

中國初創公司深度求索（DeepSeek）發佈一款價格低廉的大語言模型DeepSeek-R1，其性能比擬美國OpenAI開發的最新一代模型o1，但訓練成本更低。

綜合新華社、英國《金融時報》等報道，世界經濟論壇2025年年會開幕當天，中國量化巨頭幻方量化旗下的子公司深度求索公司1月20日發佈最新開源模型DeepSeek-R1。

據深度求索介紹，DeepSeek-R1在後訓練階段大規模使用強化學習技術，在僅有極少標註數據的情況下，極大提升模型推理能力。這意味着該模型的訓練跳過了監督微調（SFT）的步驟。

在第三方基準測試中，DeepSeek-R1在算法類代碼場景和知識類測試中的得分略低於OpenAI的o1，但在工程類代碼場景、美國數學競賽項目上均超越o1模型。

令外界更關注的是，與o1性能比肩的DeepSeek-R1，訓練成本比o1低了三十分之一。

延伸閲讀

[下午察：AI界拼多多開拓大模型新賽道

](https://www.bdggg.com/2025/zaobao/news_2025_01_01_730145) 此外，深度求索提供更加低廉的收費方案，每百萬tokens（大模型基本單位，1000個tokens約等於500個漢字）僅需16元人民幣（下同，3新元），遠低於o1模型每百萬tokens要價438元。

去年12月，深度求索公司發佈DeepSeek-V3模型，僅使用2048塊英偉達弱化版的H800晶片，花兩個月就訓練出性能比肩GPT4.0的模型。

DeepSeek能在多大程度上轉化為實際的科學和技術應用，還是僅僅在基準測試中表現優異，仍有待觀察。

但微軟首席執行官兼OpenAI戰略合作伙伴納德拉1月22日在瑞士達沃斯世界經濟論壇上説：“看到深度求索的新模型，真是令人印象深刻，不僅因為他們有效地構建一個開源模型，還因為它的推理計算效率極高。我們應該非常嚴肅地看待中國的AI進展。”

美國CNBC報道稱，這款模型的發佈已在硅谷引起恐慌。

由於美國出口管制限制中國企業採購最先進的人工智能計算晶片，中國企業正着力於通過優化軟件、算法等方式，以更加低的訓練成本開發模型。目前越來越多跡象顯示，中國企業已取得巨大突破。

另據路透社報道，除了深度求索公司，中國字節跳動星期三（1月22日）發佈豆包大模型1.5 Pro，並稱該模型在美國數學競賽項目基準測試中表現優於o1模型。