DeepSeek“偷偷”發佈新版本,最新測評來了
张广凯13764468101

(文/張廣凱 編輯/呂棟)
昨晚,DeepSeek 以非常低調的方式,帶來了最新版本的大模型 V3-0324。

沒有官方新聞稿,沒有技術報告,甚至在Hugging Face上傳的最初文件中,連README文檔都是空的,看上去,這只是V3模型的一次版本升級。
不過由於DeepSeek自帶的極高話題性,這次版本升級還是引發了大量討論和測評,並且果然沒有令人失望——很多專業人士都指出,V3-0324模型在編程能力上有了顯著提升。
在大模型編程能力測試Aider LLM中,V3-0324的多語言基準測試得分為55%,相較於此前版本不到50%的水平有明顯進步,並且超越了OpenAI的o3-mini,接近於自家的R1,但仍然稍稍落後於以編程見長的Claude 3.7 sonnet。

考慮到V3-0324並非推理模型,能夠在編程能力上接近R1,算得上是自身短板的精準補強。
另一位博主Xeophon自建的測試集上,V3-0324在綜合能力上超越了Claude 3.5 sonnet,排在它身前的DeepSeek R1,o3-mini和阿里通義的qwq-32b則都是推理模型。

知名的大模型競技場Chatbot Arena也已經開始將V3-0324納入測試,但還具體成績還要等待幾天時間。
在目前的Chatbot Arena排行榜上,GPT-4.5-Preview和Grok-3-Preview-02-24並列排在榜首,而DeepSeek R1則排在第6位。

隨着今年以來OpenAI推出最後一代非推理模型GPT-4.5,以及推理模型o3的升級,再加上Grok、Claude和Gemini等模型的持續迭代,外界對於DeepSeek何時能夠再次升級也有了更高期待。
此前路透社消息稱,DeepSeek下一代推理模型R2可能會比預期的5月更早發佈。
考慮到DeepSeek R1是以V3作為基礎模型訓練而來,此次V3-0324的亮相,或許也意味着R2愈發臨近了。
本文系觀察者網獨家稿件,未經授權,不得轉載。