DeepSeek升級後的基礎模型在編程與數學領域表現卓越 | 南華早報
Coco Feng
中國人工智能明星企業深度求索(DeepSeek)近日升級開源大語言模型V3版本,通過增加參數量並提升代碼生成與數學解題能力。
據公司官網公告,這款以先驅型號及發佈日期命名的"DeepSeek-V3-0324"模型具備"強化推理能力、優化前端網頁開發功能並提升中文寫作水平"。
新版與DeepSeek V3均屬基於海量數據集訓練的基礎模型,可應用於包括聊天機器人在內的多種場景。其推理專用模型DeepSeek R1正是基於V3架構開發。
深度求索數據顯示,升級後的基礎模型在多項基準測試中表現提升,尤其在美國數學邀請賽(AIME)測試中得分從舊版的39.6躍升至59.4,在LiveCodeBench測試中更取得49.2分,較前作提高10分。
2025年1月29日拍攝的示意圖照片中,屏幕顯示着深度求索與OpenAI旗下ChatGPT的標誌。圖片來源:法新社
相較於採用自研商業許可協議、擁有6710億參數的DeepSeek V3,新版6850億參數模型轉而使用開發者平台GitHub最受歡迎的MIT軟件許可協議。
該模型已在AI社區Hugging Face及公司官網同步發佈,目前位列Hugging Face熱門模型榜首,其性能表現獲得用户積極評價。