IDC權威評測出爐,破解文心大模型3.5“大滿貫”密碼_風聞
曾响铃-07-21 22:09
作者 | 曾響鈴
文 | 響鈴説
12項指標中,7個滿分,其中整體總分、算法模型、行業覆蓋三大指標獲得唯一的5分,絕對的行業第一。
這是IDC最新發布的《AI大模型技術能力評估報告,2023》中,百度文心大模型3.5取得的成績。

近乎“大滿貫”的表現,全景展現了文心大模型3.5從基礎技術到產業應用的能力與行業地位。

百模大戰背景下,這是第一次有來自權威機構的評測為業界進行大模型能力與價值的系統梳理。
7月初,百度方面就透露文心大模型已經迭代到3.5版本,實現了基礎模型升級、精調技術創新、知識點增強、邏輯推理增強等,在能力效果上累計提升超過50%,訓練速度提升了2倍,推理速度提升高達30倍,此外在內容安全性方面也得到了很大的提升。
現在,第三方機構又給出了全面而客觀的評價,文心大模型坐實國內第一已經沒有疑問。
那麼,文心大模型3.5憑什麼取得這樣的成績,憑什麼得到這樣的高度認可?
這一切,要從業界對大模型的根本訴求談起。
“AI原生應用”才是大模型競逐落腳點,業界呼喚權威評測一錘定音
“新的國際競爭戰略關鍵點,不是一個國家有多少個大模型,而是你的大模型上有多少原生的AI應用,這些應用在多大程度上提升了生產效率。”
百度創始人、董事長兼首席執行官李彥宏在6月底世界互聯網大會的一次演講中指出。
大模型浪潮之所以廣泛而深入,關鍵原因還在於各行各業都在期待大模型對原本的業務進行一次廣泛而深刻的變革。
這種變革與過去AI應用只是“輔助”傳統業務線不同,它是徹底再造。
例如,百度自己就宣佈要在未來要把所有業務都圍繞大模型重構,並已經在一些場景和應用上着手行動。
因此,儘管大模型浪潮洶湧,各種玩家紛紛入場,市面上大模型數量繁多,但最終能決定大模型價值的,一定是其能夠催生和支撐多少深入產業的AI原生應用,能夠多大程度上去改變產業、改變時代。
這時候,市場呼喚的就不只是大模型,而應該是能夠達到這種預期的大模型。
問題來了,這麼多的大模型,誰才是“值得信任和託付”的那個?誰才能真正推動AI原生應用?
過去,很多大模型的發佈也伴隨着某種“自我評價”,用一套自創的體系來給自己打個領先的分數。
現在,國際知名數據公司IDC在全面剖析AI大模型發展情況的提前下,選取中國市場14家大模型技術廠商進行綜合評估,無疑成為當下最權威的評價參考。
有了權威評測一錘定音,誰最能符合AI原生應用的時代要求,也就有了可信的參考。
而文心大模型3.5的凸顯,就是基於這個行業大背景,在多個維度實現了行業領先。
文心大模型3.5“大滿貫”,行業第一背後是三大維度的領先
先用一個圖直觀感受下文心大模型3.5的“大滿貫”:

此次IDC將大模型分為產品技術、服務生態以及行業應用三個層面進行測評,主要考察算法模型、通用能力、創新能力、平台能力、安全可解釋、行業覆蓋、生態合作、服務能力等指標。
文心大模型3.5在雷達圖上處在絕對領先的地位,是技術突破者和產業應用引領者。
細化拆解IDC報告,可以發現文心大模型3.5事實上完成了三個維度的領先,它們共同坐實了文心大模型3.5“行業第一”的地位。
1、多維能力完備且深入:成為從技術到應用的“全能型選手”
大模型始於技術創新但終於全面的行業落地,一個優質的大模型首先需要在各個相關維度都做到出色,才能最終贏得市場選擇、創造時代價值。
這體現在IDC報告中由三個層面、多個維度評價分數共同構成的整體總分上。
文心大模型3.5獲得整體總分絕對第一,不僅沒有“木桶短板”,更在每個維度環節上都領先行業,做到了“長木板”的全面配置。
例如,要產品能力,文心大模型3.5在算法模型、通用能力、創新能力、平台能力等維度全面領先;
要具體的應用落地,文心大模型3.5既有產業覆蓋的廣度,又有能源、金融等領域介入的深度,等等。
凡是大模型創新關聯的維度所需要的,文心大模型3.5都以行業領先的姿態完全具備,成為領先的“全能型選手”。
2、單項能力扛鼎:在關鍵環節突破、掌握絕對話語權
在總體上“一個都不能少”後,考驗大模型價值的,是特定的優秀單項能力。
滿分的7項核心指標,文心大模型3.5獲得了國內大模型“算法模型”維度評價唯一的滿分,在技術上處在領先地位。
大模型最直接、最核心的能力來源是“算法模型”,它決定了大模型的效果、效率、成本乃至最終應用的價值。
“算法模型”的唯一滿分,表明文心大模型3.5在數據、算法模型結構創新性、訓練/推理成本優化等方面都做到了行業領先,將最終推動各行各業以更低門檻享受優質大模型的時代紅利。
而宏觀來看,算法的突破向來是大模型的競爭核心所在,文心大模型3.5獲得IDC唯一滿分的評價,某種程度上也表明其代表整個行業進行着能力的突圍,在技術上引領國內大模型算法的發展,承載着行業發展的使命。
3、應用價值引領:應用深入融合一線業務
只有能夠在具體產業場景中產生廣泛而深度的價值,大模型自身的意義才能得以彰顯。而評價大模型行業應用能力最直接的指標,是到底覆蓋了多少行業,以及在行業中是否做到了與業務的深度融合、創造現實價值。
文心大模型3.5做到了行業覆蓋絕對第一,這背後是百度在過去長期服務政企數智化轉型過程中積累的“懂行”特性,推動文心大模型3.5已經提前進入廣泛的產業落地探索階段。
百度文心已經聯合聯合國家電網、浦發銀行、泰康、吉利、哈爾濱市、深圳燃氣、TCL、上海辭書出版社等企業單位,合作發佈了11個行業大模型。
以能源電力為例,在全球最大的公用事業企業——國家電網有限公司,面向複雜電網的專業場景,基於百度文心大模型,百度與智研院聯合訓練電力行業大模型,在電網設備、客服等實際業務場景進行試點驗證,可以顯著增強電網運營的精細化、自動化、智能化水平。百度也和深圳燃氣聯合發佈了燃氣行業大模型,破解燃氣企業運營場景繁雜、安全風險識別困難等難題。
目前,文心大模型已經擁有中國最大的產業應用規模,有15萬家企業申請接入文心一言測試,百度智能雲也與300多家生態夥伴在超過400個場景中取得相當不錯的大模型應用測試效果。
未來,料想文心大模型還將在更多產業場景進行更深度的業務需求融合,如李彥宏所言,催生大量“AI原生應用”,切實“提升生產效率”。
回過頭來看,文心大模型3.5引領大模型賽道的行業覆蓋廣度,與其在算法模型能力扛鼎又有直接的關聯,後者支撐前者不斷拓展,前者為後者提供持續的實踐反哺,一個持續迭代提升的飛輪就此形成。
可以説,文心大模型3.5在這兩個指標上的唯一滿分,表達出“產品技術最為領先”、“行業應用最為廣泛深入”二者相輔相成的關係,也為文心大模型3.5構建起牢不可破的護城河。
文心穩坐國內第一後,大模型產業生態“一超多強”格局已現
事實上,除了IDC報告,很多其他的專業評測也在佐證文心大模型的行業地位。
不久前,中國科學報公佈了一項綜合了AGIEval、C-Eval、MMLU三大權威基準測試的評測結果,顯示文心大模型3.5在多個測試集的得分已超過ChatGPT,且中文能力超越GPT-4。
文心大模型3.5不僅在國內絕對領先,也實現了對國際主流大模型的超越,可以與當下最前沿的大模型掰手腕。
文心大模型3.5之所以能夠做到這樣的成績,與百度過去的積累直接相關。
基於長期的AI創新與實踐,在2019年,百度就開始深耕預訓練模型研發,先後發佈知識增強文心繫列模型。
大模型是技術發展的一大步,卻某種程度上只是AI的一小步,在這裏不存在所謂“黑馬”,能夠凸顯的只有那些長期在AI領域耕耘與實踐的績優“白馬”。
百度已經實現了“芯片-框架-模型-應用”人工智能四層技術棧的獨特優勢,是全球為數不多的擁有全棧佈局的科技公司,而且在每個層面都具備了領先的自研產品和技術。
特別是框架層的飛槳和模型層的文心實現了聯合優化,前者最先進的大模型訓練和推理部署技術能夠幫助後者實現快速迭代,並實現效率和效果的提升。
現在,文心大模型還在不斷發展。
例如,3.5版本新增的插件機制直接擴增了大模型的能力邊界,在文心一言中,“百度搜索”插件讓其具備生成實時準確信息的能力,長文本摘要和問答插件“ChatFile”插件則支持超長文本輸入和摘要生成。下一階段,文心一言還會發布更多優質官方插件和第三方插件,並將開放插件生態給第三方開發者。
今天的中國大模型賽道上,可以説,文心大模型3.5詮釋了“比你厲害的還比你更努力”這句話。
面向未來,大模型的高入門門檻與能力差距的不斷拉大,將逐步改變當下的百模競逐行業格局。
未來的市場,只會留下那些能夠完整、深度支撐AI原生應用的廠商,百度等少數玩家將形成一個個的生態核心,與垂直領域的生態夥伴一起賦能千行百業。
在這個過程中,穩坐國內第一、衝擊全球領先的文心大模型將成為超級一極,與其他幾個強力玩家一起以“一超多強”的格局推動繁榮的大模型時代到來。
*本文圖片均來源於網絡
*此內容為【響鈴説】原創,未經授權,任何人不得以任何方式使用,包括轉載、摘編、複製或建立鏡像。
#響鈴説 Focusing on企業數字化與產業智能化升級,這是關注一切與創業、產業和商業相關的降本增效新技術、新模式、新生態 NO.351深度解讀
【完】
曾響鈴
1鈦媒體、品途、人人都是產品經理等多家創投、科技網站年度十大作者;
2 虎嘯獎評委;
3 作家:【移動互聯網+ 新常態下的商業機會】等暢銷書作者;
4 《中國經營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜誌特約評論員;
5 鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;
6 “腦藝人”(腦力手藝人)概念提出者,現演變為“自媒體”,成為一個行業;
7 騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。