DeepSeek“偷偷”發佈新版本，最新測評來了

张广凯13764468101

2025-03-25

（文/張廣凱編輯/呂棟）

昨晚，DeepSeek 以非常低調的方式，帶來了最新版本的大模型 V3-0324。

沒有官方新聞稿，沒有技術報告，甚至在Hugging Face上傳的最初文件中，連README文檔都是空的，看上去，這只是V3模型的一次版本升級。

不過由於DeepSeek自帶的極高話題性，這次版本升級還是引發了大量討論和測評，並且果然沒有令人失望——很多專業人士都指出，V3-0324模型在編程能力上有了顯著提升。

在大模型編程能力測試Aider LLM中，V3-0324的多語言基準測試得分為55%，相較於此前版本不到50%的水平有明顯進步，並且超越了OpenAI的o3-mini，接近於自家的R1，但仍然稍稍落後於以編程見長的Claude 3.7 sonnet。

考慮到V3-0324並非推理模型，能夠在編程能力上接近R1，算得上是自身短板的精準補強。

另一位博主Xeophon自建的測試集上，V3-0324在綜合能力上超越了Claude 3.5 sonnet，排在它身前的DeepSeek R1，o3-mini和阿里通義的qwq-32b則都是推理模型。

知名的大模型競技場Chatbot Arena也已經開始將V3-0324納入測試，但還具體成績還要等待幾天時間。

在目前的Chatbot Arena排行榜上，GPT-4.5-Preview和Grok-3-Preview-02-24並列排在榜首，而DeepSeek R1則排在第6位。

隨着今年以來OpenAI推出最後一代非推理模型GPT-4.5，以及推理模型o3的升級，再加上Grok、Claude和Gemini等模型的持續迭代，外界對於DeepSeek何時能夠再次升級也有了更高期待。

此前路透社消息稱，DeepSeek下一代推理模型R2可能會比預期的5月更早發佈。

考慮到DeepSeek R1是以V3作為基礎模型訓練而來，此次V3-0324的亮相，或許也意味着R2愈發臨近了。

本文系觀察者網獨家稿件，未經授權，不得轉載。