DeepSeek發佈V3模型更新提升編程能力 | 聯合早報

zaobao

2025-03-25

中國初創公司深度求索（DeepSeek）發佈了V3模型更新，加強了模型的編程能力，顯示這家公司希望在人工智能（AI）激烈競爭中保持領先優勢。

綜合彭博社和科技博客網站VentureBeat報道，AI開源模型DeepSeek-V3的版本更新V3-0324星期一（3月24日）深夜在AI開源平台HuggingFace低調上線。

DeepSeek沒有為此次版本更新發布任何公告，延續了該公司的低調風格。

初代DeepSeek-V3發佈於2024年12月26日，這款模型自上線後便以高性價比火速“出圈”。根據官方技術論文披露，DeepSeek-V3模型的總訓練成本為557.6萬美元（746萬新元），而GPT-4o等模型的訓練成本約為1億美元。

更新後的DeepSeek-V3模型大小為641GB，參數量6850億。與V3相同，V3-0324模型採用專家混合（MoE）架構，並開源允許自由商用。

此次DeepSeek發佈的V3版本更新，編程能力的優化成了最大亮點。有網民使用V3-0324模型編寫800多行代碼，全程沒有出現任何故障。

有AI研究者在X發佈評測指出，V3-0324模型在所有基準測試中都取得巨大進步，可能已超越美國Anthropic的Claude Sonnet 3.5，成為最強大的非推理模型。Sonnet 3.5是當前最受認可的商業AI模型之一。

讓更多科技博主關注的是，V3-0324模型可直接在消費級硬件上運行，如搭載蘋果M3 Ultra晶片的Mac Studio上，不需要動輒千瓦級別功耗的數據中心。

M3 Ultra晶片在進行推理時的功耗不到200瓦，意味着V3-0324模型的部署和運營門檻已大大降低。

VentureBeat報道認為，DeepSeek-V3-0324模型的發佈，可能預示着DeepSeek-R2的即將到來。DeepSeek一貫先推出基礎模型，再推出專門優化推理能力的版本，如V3後不久發佈的R1。

路透社今年2月引述消息稱，DeepSeek正加快推出R1模型的後續產品R2。據悉，DeepSeek-R2原計劃在5月初發布，但公司現在希望儘早推出。

VentureBeat認為，DeepSeek-R2的發佈，可能成為直接挑戰OpenAI GPT-5的競品。