阿里巴巴升級旗艦版Qwen3模型 數學與編程能力超越OpenAI和深度求索 | 南華早報
Coco Feng
阿里巴巴集團發佈了第三代通義千問Qwen3系列大語言模型的升級版本,其成員在數學和編程能力上的評分已超越競爭對手OpenAI與深度求索(DeepSeek)的產品。據週二人工智能社區HuggingFace及阿里開源平台ModelScope的更新公告,新型號Qwen3-235B-A22B-Instruct-2507-FP8作為開源模型,在"綜合能力上實現顯著提升,包括指令遵循、邏輯推理、文本理解、數理科學、編程及工具使用等方面"。阿里巴巴持有《南華早報》。
該模型在部分評估中表現優於競品,例如2025年美國數學邀請賽測試中取得70.3分。相較之下,深度求索3月發佈的基礎模型DeepSeek-V3-0324得分為46.6,而OpenAI的GPT-4o-0327僅獲26.7分。
編程能力方面,新Qwen模型在MultiPL-E基準測試中獲得87.9分,略高於上述深度求索(82.2分)和OpenAI(82.7分)模型,但稍遜於Anthropic公司Claude Opus 4非思考模式的88.5分。
此次升級基於Qwen3-235B-A22B-FP8版本,但僅支持非思考模式——即AI系統直接輸出結果而不展示思考模型可能採用的顯式推理步驟。因此其上下文長度提升八倍至25.6萬token,可支持更長的單輪對話文本處理。
同樣在週二,阿里巴巴宣佈將一款擁有30億參數的Qwen模型集成到惠普在中國個人電腦上的智能助手“小惠慧”中,以增強包括起草文檔和會議總結在內的功能。