DeepSeek發佈V3模型更新 提升編程能力 | 聯合早報
zaobao
中國初創公司深度求索(DeepSeek)發佈了V3模型更新,加強了模型的編程能力,顯示這家公司希望在人工智能(AI)激烈競爭中保持領先優勢。
綜合彭博社和科技博客網站VentureBeat報道,AI開源模型DeepSeek-V3的版本更新V3-0324星期一(3月24日)深夜在AI開源平台HuggingFace低調上線。
DeepSeek沒有為此次版本更新發布任何公告,延續了該公司的低調風格。
初代DeepSeek-V3發佈於2024年12月26日,這款模型自上線後便以高性價比火速“出圈”。根據官方技術論文披露,DeepSeek-V3模型的總訓練成本為557.6萬美元(746萬新元),而GPT-4o等模型的訓練成本約為1億美元。
更新後的DeepSeek-V3模型大小為641GB,參數量6850億。與V3相同,V3-0324模型採用專家混合(MoE)架構,並開源允許自由商用。
此次DeepSeek發佈的V3版本更新,編程能力的優化成了最大亮點。有網民使用V3-0324模型編寫800多行代碼,全程沒有出現任何故障。
有AI研究者在X發佈評測指出,V3-0324模型在所有基準測試中都取得巨大進步,可能已超越美國Anthropic的Claude Sonnet 3.5,成為最強大的非推理模型。Sonnet 3.5是當前最受認可的商業AI模型之一。
讓更多科技博主關注的是,V3-0324模型可直接在消費級硬件上運行,如搭載蘋果M3 Ultra晶片的Mac Studio上,不需要動輒千瓦級別功耗的數據中心。
M3 Ultra晶片在進行推理時的功耗不到200瓦,意味着V3-0324模型的部署和運營門檻已大大降低。
VentureBeat報道認為,DeepSeek-V3-0324模型的發佈,可能預示着DeepSeek-R2的即將到來。DeepSeek一貫先推出基礎模型,再推出專門優化推理能力的版本,如V3後不久發佈的R1。
路透社今年2月引述消息稱,DeepSeek正加快推出R1模型的後續產品R2。據悉,DeepSeek-R2原計劃在5月初發布,但公司現在希望儘早推出。
VentureBeat認為,DeepSeek-R2的發佈,可能成為直接挑戰OpenAI GPT-5的競品。