阿里巴巴升級旗艦版Qwen3模型數學與編程能力超越OpenAI和深度求索 | 南華早報

Coco Feng

2025-07-23

阿里巴巴集團發佈了第三代通義千問Qwen3系列大語言模型的升級版本，其成員在數學和編程能力上的評分已超越競爭對手OpenAI與深度求索（DeepSeek）的產品。據週二人工智能社區HuggingFace及阿里開源平台ModelScope的更新公告，新型號Qwen3-235B-A22B-Instruct-2507-FP8作為開源模型，在"綜合能力上實現顯著提升，包括指令遵循、邏輯推理、文本理解、數理科學、編程及工具使用等方面"。阿里巴巴持有《南華早報》。

該模型在部分評估中表現優於競品，例如2025年美國數學邀請賽測試中取得70.3分。相較之下，深度求索3月發佈的基礎模型DeepSeek-V3-0324得分為46.6，而OpenAI的GPT-4o-0327僅獲26.7分。

編程能力方面，新Qwen模型在MultiPL-E基準測試中獲得87.9分，略高於上述深度求索（82.2分）和OpenAI（82.7分）模型，但稍遜於Anthropic公司Claude Opus 4非思考模式的88.5分。

此次升級基於Qwen3-235B-A22B-FP8版本，但僅支持非思考模式——即AI系統直接輸出結果而不展示思考模型可能採用的顯式推理步驟。因此其上下文長度提升八倍至25.6萬token，可支持更長的單輪對話文本處理。

同樣在週二，阿里巴巴宣佈將一款擁有30億參數的Qwen模型集成到惠普在中國個人電腦上的智能助手“小惠慧”中，以增強包括起草文檔和會議總結在內的功能。