中國DeepSeek發佈低價大模型 性能比肩OpenAI o1 | 聯合早報
zaobao
中國初創公司深度求索(DeepSeek)發佈一款價格低廉的大語言模型DeepSeek-R1,其性能比擬美國OpenAI開發的最新一代模型o1,但訓練成本更低。
綜合新華社、英國《金融時報》等報道,世界經濟論壇2025年年會開幕當天,中國量化巨頭幻方量化旗下的子公司深度求索公司1月20日發佈最新開源模型DeepSeek-R1。
據深度求索介紹,DeepSeek-R1在後訓練階段大規模使用強化學習技術,在僅有極少標註數據的情況下,極大提升模型推理能力。這意味着該模型的訓練跳過了監督微調(SFT)的步驟。
在第三方基準測試中,DeepSeek-R1在算法類代碼場景和知識類測試中的得分略低於OpenAI的o1,但在工程類代碼場景、美國數學競賽項目上均超越o1模型。
令外界更關注的是,與o1性能比肩的DeepSeek-R1,訓練成本比o1低了三十分之一。
延伸閲讀
[下午察:AI界拼多多開拓大模型新賽道
](https://www.bdggg.com/2025/zaobao/news_2025_01_01_730145)
此外,深度求索提供更加低廉的收費方案,每百萬tokens(大模型基本單位,1000個tokens約等於500個漢字)僅需16元人民幣(下同,3新元),遠低於o1模型每百萬tokens要價438元。
去年12月,深度求索公司發佈DeepSeek-V3模型,僅使用2048塊英偉達弱化版的H800晶片,花兩個月就訓練出性能比肩GPT4.0的模型。
DeepSeek能在多大程度上轉化為實際的科學和技術應用,還是僅僅在基準測試中表現優異,仍有待觀察。
但微軟首席執行官兼OpenAI戰略合作伙伴納德拉1月22日在瑞士達沃斯世界經濟論壇上説:“看到深度求索的新模型,真是令人印象深刻,不僅因為他們有效地構建一個開源模型,還因為它的推理計算效率極高。我們應該非常嚴肅地看待中國的AI進展。”
美國CNBC報道稱,這款模型的發佈已在硅谷引起恐慌。
由於美國出口管制限制中國企業採購最先進的人工智能計算晶片,中國企業正着力於通過優化軟件、算法等方式,以更加低的訓練成本開發模型。目前越來越多跡象顯示,中國企業已取得巨大突破。
另據路透社報道,除了深度求索公司,中國字節跳動星期三(1月22日)發佈豆包大模型1.5 Pro,並稱該模型在美國數學競賽項目基準測試中表現優於o1模型。