DeepSeek低調宣稱小更新,結果用2折價格達到R1水平_風聞
知危-知危官方账号-52分钟前
昨晚,DeepSeek 無預警發佈 DeepSeek-V3-0324 模型,此次更新雖被官方低調地稱為 “ 小版本迭代 ”,但實測表現遠超預期。
該模型尤其在代碼生成、前端開發等方面顯著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引發全球 AI 社區熱議。
在大模型競技場測試 KCORES 中,DeepSeek-V3-0324 代碼能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近 Claude 3.7 Sonnet 的思維鏈版本( 334.8分 )。

在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多語言基準測試中得分為 55%,比 V3 有顯著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,僅次於 Claude Sonnet 3.7 。

測試數據還表明,在表現良好的模型中,DeepSeek-V3-0324 花費是最低的,比 R1 還低很多,只需大約 1/5,擁有高到令人髮指的性價比。
另外,Claude Sonnet 3.7 Thinking 的花費是 DeepSeek-V3-0324 的 33 倍, o1 是 DeepSeek-V3-0324 的 167 倍。


目前在 DeepSeek 官網,只需要關閉 “ 深度思考 ” 選項即可使用新模型。
Hugging Face 上也提供了開源下載,下載地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324 包含 685B 參數,較前代 V3 小幅增加,採用 MoE( 專家混合 )架構,激活參數 370 億。網友實測 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度運行,磁盤佔用僅352GB。新模型採用與 DeepSeek-R1 相同的MIT許可,允許自由修改、商用及模型蒸餾,比上一版 V3 更開放。
從測評結果來看,DeepSeek-V3-0324 前端開發表現突出,媲美頂級商業模型。
X 博主 Deepanshu Sharma 僅用簡單提示詞( “ 用 HTML/CSS/JS 製作現代化登錄頁面 ” ),就能讓新版 V3 一鍵生成 800+ 行代碼,且無錯誤運行,效果媲美 Claude 3.7 Sonnet 。


在經典彈跳小球測試中,DeepSeek V3-0324 不僅比 R1 表現更好,博主 Deepanshu Sharma 還認為它生成了最流暢的動作。


在測試中 o3-mini 最初表現看起來不錯,但並沒有正確遵循物理原理,尤其是在視頻中間,球對重力沒有做出正確的反應。
Deepanshu Sharma 評價 DeepSeek V3-0324 “ 表現得像唯一排名第一的非推理模型 ”。
據 X 網友 karminski-牙醫介紹,在升級版的 20 小球物理模擬測試中,DeepSeek V3-0324 相比 V3 也表現更優。


而新版 V3 與頭部推理模型的比較情況如下:

在火星任務測試中,DeepSeek-V3-0324 提升巨大,星球、圖例渲染正確,發射和返回的窗口計算也有很大進步。

結合 UI 設計和物理模擬,X 網友 Parul Pandey 還用 DeepSeek-V3-0324 生成了一個可交互物理模擬界面,通過 AnyChat 使用 DeepSeek-V3-0324 模擬水分子。
實際運行中,可以通過温度滑塊提升温度,讓分子呈現越來越快的前進和碰撞反彈運動。
提示詞:創建一個交互式模擬,顯示水分子形成和斷裂氫鍵的過程,同時顯示温度滑塊。


對於本次升級的技術難度,有 Reddit 網友 pigeon57434 給出了比較中立的解讀:不用太驚歎本次 V3 升級的幅度,因為 RL ( 強化學習,Reinforcement Learning )**潛力極大。**以 QwQ-32B 為例,儘管它實際上小了 20 倍,但它在某些方面的表現幾乎與 R1 一樣好,甚至比 R1 更好。它能那麼強,只是因為擴展推理模型還有很大空間,甚至不需要新的基礎模型。我敢打賭,使用更復雜的技術,可以輕鬆獲得基於 DeepSeek-V2.5 的推理模型來擊敗 R1,更不用説這個新版本的 V3 了。

總的來説,這樣的免費+高性能的組合將對 OpenAI、Anthropic 等閉源商業模型形成越來越大的壓力。
DeepSeek 此次更新再次證明開源模型的爆發力,不僅技術指標逼近頂級商業AI,更以低成本、高自由度推動行業變革。
可以合理推測,此次更新有可能是R2的前置版本,類似去年 V3 ( 24.12.16 )→R1 ( 25.01.20 ) 的發佈節奏,或許幾周內我們可能迎來更強的推理模型 R2。
隨着 R2 的臨近,全球 AI 競爭格局或將迎來新一輪洗牌。