DeepSeek升級後的基礎模型在編程與數學領域表現卓越 | 南華早報

Coco Feng

2025-03-26

中國人工智能明星企業深度求索(DeepSeek)近日升級開源大語言模型V3版本，通過增加參數量並提升代碼生成與數學解題能力。

據公司官網公告，這款以先驅型號及發佈日期命名的"DeepSeek-V3-0324"模型具備"強化推理能力、優化前端網頁開發功能並提升中文寫作水平"。

新版與DeepSeek V3均屬基於海量數據集訓練的基礎模型，可應用於包括聊天機器人在內的多種場景。其推理專用模型DeepSeek R1正是基於V3架構開發。

深度求索數據顯示，升級後的基礎模型在多項基準測試中表現提升，尤其在美國數學邀請賽(AIME)測試中得分從舊版的39.6躍升至59.4，在LiveCodeBench測試中更取得49.2分，較前作提高10分。

2025年1月29日拍攝的示意圖照片中，屏幕顯示着深度求索與OpenAI旗下ChatGPT的標誌。圖片來源：法新社

相較於採用自研商業許可協議、擁有6710億參數的DeepSeek V3，新版6850億參數模型轉而使用開發者平台GitHub最受歡迎的MIT軟件許可協議。

該模型已在AI社區Hugging Face及公司官網同步發佈，目前位列Hugging Face熱門模型榜首，其性能表現獲得用户積極評價。