開源僅12天，通義千問包攬多個大模型權威評測冠軍_風聞

Tech星球-Tech星球官方账号-聚焦互联网前沿科技和新商业。12-13 10:15

2023-12-13

來源 | Tech星球

文 | 賈寧宇

自12月1日阿里雲宣佈開源，通義千問72B大模型就開啓了“屠榜”模式，接連問鼎多個權威排行榜。今天，通義千問又摘得一重要榜單冠軍。

12月12日，中國權威的大模型評測平台OpenCompass日前更新了榜單，阿里雲通義千問登上開源基座大模型榜首，並在中文數據集評測中包攬前二。

圖注：通義千問72B登頂OpenCompass基座大模型榜。

OpenCompass是上海人工智能實驗室開源的大模型評測平台，Qwen、LLaMA2等開源模型及GPT-4、ChatGPT等主流模型均參與評測，可全面評估大模型能力，是業界公認最權威的中文能力評測榜單之一。

通義千問72B開源模型（Qwen-72B），以67.1的綜合得分奪得OpenCompass基座大模型榜單冠軍，並在學科能力、理解能力兩大維度評測中超越標杆GPT-4，創下開源大模型的新紀錄。

而在OpenCompass中文數據集評測中，通義千問72B基座大模型和對話大模型（Qwen-72B-Chat）包攬前二，與其他模型拉開差距。

圖注：通義千問72B基座大模型及對話大模型包攬中文數據集測試前二。

登頂HuggingFace榜單，刷新國產大模型紀錄

就在幾天前，通義千問力壓Llama2等國內外開源大模型，登頂全球最大的開源大模型社區HuggingFace最新的開源大模型排行榜。

HuggingFace是全球最具影響力的AI開源社區，其開源大模型排行榜（Open LLM Leaderboard）被認為是最具公信力的專業榜單，收錄了Qwen系列、LLaMA2等全球上百個開源大模型。

開源的通義千問（Qwen-72B）表現搶眼，以73.6的綜合得分在所有預訓練模型中排名第一。刷新了中國大模型在HuggingFace榜單上的紀錄。

圖注：通義千問72B登頂HuggingFace排行榜。

性能最強開源大模型，超越標杆LLaMA2

通義千問72B已成為國內外公認的性能最強的開源大模型，完全可滿足企業級、科研級應用對大模型性能的高要求。

此前，在宣佈開源的12月1日，Qwen-72B就在10個權威基準測評中奪得開源模型最優成績，超越LLaMA2-70B，並在部分測評中超越閉源的GPT-3.5和GPT-4。

圖注：通義千問720億開源模型部分成績超越閉源的GPT-3.5和GPT-4。

具體來看，在英語任務上，Qwen-72B在MMLU基準測試取得開源模型最高分；中文任務上，Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基準，得分超越GPT-4；數學推理方面，Qwen-72B在GSM8K、MATH測評中斷層式領先其他開源模型；代碼理解方面，Qwen-72B在HumanEval、MBPP等測評中的表現大幅提升，代碼能力有了質的飛躍。

將開源進行到底

據瞭解，阿里雲已開源通義千問18億、70億、140億、720億參數的4款大語言模型，以及視覺理解Qwen-VL、音頻理解Qwen-Audio的 2款多模態大模型，引領“全尺寸、全模態”開源之先。

截至目前，通義千問開源模型系列總下載量超150萬，並湧現出150餘款新模型和新應用。

阿里雲CTO周靖人曾表示，開源生態對促進中國大模型的技術進步與應用落地至關重要，通義千問將持續投入開源，希望成為“AI時代最開放的大模型”，與夥伴們共同促進大模型生態建設。

開發者可在阿里雲魔搭社區直接體驗系列模型效果，也可通過阿里雲靈積平台調用模型API，或基於阿里雲百鍊平台定製大模型應用；阿里雲人工智能平台PAI還針對通義千問全系列模型進行深度適配，推出輕量級微調、全參數微調、分佈式訓練、離線推理驗證、在線服務部署等服務。