開源僅12天,通義千問包攬多個大模型權威評測冠軍_風聞
Tech星球-Tech星球官方账号-聚焦互联网前沿科技和新商业。12-13 10:15
來源 | Tech星球
文 | 賈寧宇
自12月1日阿里雲宣佈開源,通義千問72B大模型就開啓了“屠榜”模式,接連問鼎多個權威排行榜。今天,通義千問又摘得一重要榜單冠軍。
12月12日,中國權威的大模型評測平台OpenCompass日前更新了榜單,阿里雲通義千問登上開源基座大模型榜首,並在中文數據集評測中包攬前二。
圖注:通義千問72B登頂OpenCompass基座大模型榜。
OpenCompass是上海人工智能實驗室開源的大模型評測平台,Qwen、LLaMA2等開源模型及GPT-4、ChatGPT等主流模型均參與評測,可全面評估大模型能力,是業界公認最權威的中文能力評測榜單之一。
通義千問72B開源模型(Qwen-72B),以67.1的綜合得分奪得OpenCompass基座大模型榜單冠軍,並在學科能力、理解能力兩大維度評測中超越標杆GPT-4,創下開源大模型的新紀錄。
而在OpenCompass中文數據集評測中,通義千問72B基座大模型和對話大模型(Qwen-72B-Chat)包攬前二,與其他模型拉開差距。
圖注:通義千問72B基座大模型及對話大模型包攬中文數據集測試前二。
登頂HuggingFace榜單,刷新國產大模型紀錄
就在幾天前,通義千問力壓Llama2等國內外開源大模型,登頂全球最大的開源大模型社區HuggingFace最新的開源大模型排行榜。
HuggingFace是全球最具影響力的AI開源社區,其開源大模型排行榜(Open LLM Leaderboard)被認為是最具公信力的專業榜單,收錄了Qwen系列、LLaMA2等全球上百個開源大模型。
開源的通義千問(Qwen-72B)表現搶眼,以73.6的綜合得分在所有預訓練模型中排名第一。刷新了中國大模型在HuggingFace榜單上的紀錄。
圖注:通義千問72B登頂HuggingFace排行榜。
性能最強開源大模型,超越標杆LLaMA2
通義千問72B已成為國內外公認的性能最強的開源大模型,完全可滿足企業級、科研級應用對大模型性能的高要求。
此前,在宣佈開源的12月1日,Qwen-72B就在10個權威基準測評中奪得開源模型最優成績,超越LLaMA2-70B,並在部分測評中超越閉源的GPT-3.5和GPT-4。
圖注:通義千問720億開源模型部分成績超越閉源的GPT-3.5和GPT-4。
具體來看,在英語任務上,Qwen-72B在MMLU基準測試取得開源模型最高分;中文任務上,Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基準,得分超越GPT-4;數學推理方面,Qwen-72B在GSM8K、MATH測評中斷層式領先其他開源模型;代碼理解方面,Qwen-72B在HumanEval、MBPP等測評中的表現大幅提升,代碼能力有了質的飛躍。
將開源進行到底
據瞭解,阿里雲已開源通義千問18億、70億、140億、720億參數的4款大語言模型,以及視覺理解Qwen-VL、音頻理解Qwen-Audio的 2款多模態大模型,引領“全尺寸、全模態”開源之先。
截至目前,通義千問開源模型系列總下載量超150萬,並湧現出150餘款新模型和新應用。
阿里雲CTO周靖人曾表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,通義千問將持續投入開源,希望成為“AI時代最開放的大模型”,與夥伴們共同促進大模型生態建設。
開發者可在阿里雲魔搭社區直接體驗系列模型效果,也可通過阿里雲靈積平台調用模型API,或基於阿里雲百鍊平台定製大模型應用;阿里雲人工智能平台PAI還針對通義千問全系列模型進行深度適配,推出輕量級微調、全參數微調、分佈式訓練、離線推理驗證、在線服務部署等服務。