DeepSeek升級版R1 AI模型在新基準測試中編程能力媲美谷歌和Anthropic | 南華早報

Sam Phillips

2025-06-19

中國人工智能初創企業深度求索(DeepSeek)的最新模型升級版本，根據即時AI編程競賽平台WebDev Arena的最新結果顯示，其編碼性能已與行業巨頭谷歌和Anthropic比肩。在評估大語言模型(LLM)快速準確解決編碼任務能力的WebDev Arena排行榜上，深度求索升級版DeepSeek-R1與谷歌Gemini-2.5、Anthropic的Claude Opus 4並列榜首。這家杭州公司的R1模型獲得1408.84分，與Opus 4的1405.51分和Gemini-2.5的1433.16分處於同一水平。

模型輸出質量由人工評估確定分數。自今年1月發佈以來，深度求索的推理模型在各項基準測試中始終保持着接近領先模型的水平，儘管其訓練成本顯著更低。

深度求索於五月下旬低調更新R1，這是該模型自高調亮相後的首次迭代。這家初創公司在開源AI開發者社區Hugging Face發佈了R1-0528版本，稱其為"小幅升級"，但未透露具體改進細節。該公司後續表示，更新後的模型在推理和創意寫作能力方面有所提升，幻覺現象（AI生成缺乏事實依據的誤導性信息）減少了50%。R1更新在開發者社區中引起了關注，同時人們對深度求索的下一代推理模型R2抱有廣泛期待。公司對其重大後續版本的發佈時間透露甚少。

深度求索將其高性能模型開源的做法使其與許多領先企業區分開來。開發者能夠按需使用和修改代碼，促成了早期的快速採用。在中國，這促使了百度等科技巨頭支持開源模型方法。