豆包文科成績超了一本線,為什麼理科不行?_風聞
量子位-量子位官方账号-1小时前
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
什麼?好多大模型的文科成績超一本線,還是最卷的河南省???

**△**圖源:極客公園
沒錯,最近就有這麼一項大模型**“高考大摸底”**評測走紅了。
河南高考文科今年的一本線是521分,根據這項評測,共計四個大模型大於或等於這個分數,其中頭兩名最值得關注:
GPT-4o:562分
字節豆包:542.5分
……
從結果中來看,GPT-4o的表現依舊是處於領先狀態,而在國產大模型這邊,比較亮眼的成績便屬於豆包了。
並且在語文和歷史等科目的成績甚至還超越了GPT-4o。
這也讓不少網友紛紛感慨:
AI文科成績這麼好,看來在處理語言和邏輯上還是很有優勢的。

不過有一説一,畢竟國產大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發佈僅數月的豆包,真具備此等實力嗎?以及這數學……又是怎麼一回事兒?
先看評測榜單
要回答上述的問題,我們不妨先來查一查豆包在最新的權威評測榜單中的表現是否一致。
首先有請由智源研究院發佈的FlagEval(天秤)。
它的評測方式是這樣的:
對於開源模型, FlagEval會綜合概率選擇和自由生成兩種方式來評測,對於閉源模型, FlagEval只採用自由生成的方式來評測,兩種評測方式區別參照。
主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目並沒有計入能力分數的計算。
在**“客觀評測”**這個維度上,榜單成績如下:

不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致。
大模型依舊分別來自OpenAI、字節跳動、百度和百川智能。
並且豆包在“知識運用”和“數學能力”兩個維度上成績還高於第一名的GPT-4。
若是將評測方式調節至**“主觀評測”**,那麼結果是這樣的:

此時,百度的大模型躍居到了第一名,而字節的豆包依舊是穩居第二的成績。
由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。
接下來,我們再來有請另一個權威測評——OpenCompass(司南)。

在最新的5月榜單中,豆包的成績也是僅次於OpenA家的大模型。
同樣的,在細分的“語言”和“推理”兩個維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。

但與專業評測冷冰冰的分數相比,人們都對高考有着更深刻的體驗和記憶。
那麼接下來我們就通過豆包回答高考題,來看看大模型在應對人類考試時的具體表現。
再看實際效果
既然目前許多試卷的題目都已經流出,我們不妨親測一下豆包的實力。
例如讓它先寫一篇新課標I卷語文的作文題目:
隨着互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那麼,我們的問題是否會越來越少?
以上材料引發了你怎樣的聯想和思考?請寫一篇文章。
要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少於800字。

**△**結果由豆包PC端對話生成
從豆包的作答上來看,是已經擺脱了AI寫作文經常犯的“首先-其次-以及-最後”這種模板式的寫法,也擅長引經據典來做論證。
但畢竟每個人對於文筆的審美標準不同,因此豆包高考作文寫得如何,評價就交給你們了(歡迎在留言區討論)。
值得一提的是,在量子位向豆包團隊詢問後得知,原來豆包PC端對話和**手機端“拍題答疑”**是兩種截然不同的招式——
前者走的是LLM鏈路,後者走的則是RAG鏈路(若是用豆包手機端“拍題答疑”功能,高考數理化成績也能接近滿分)。
加上在這次“高考大摸底”評測出爐之後,很多網友們都將關注的重點聚焦到了數學成績上:
AI也怕數學。

因此,接下來的實際效果測試,我們就將以**“LLM鏈路+數學”**的方式來展開。
先拿這次的選擇題來小試牛刀一下:

當我們把題目在PC端“喂”豆包之後,它的作答如下:

因此,豆包給出的答案是:
A、C、D、D、B、B、A、A
這裏我們再來引入排名第一選手GPT-4o的作答:
A、D、B、D、C、A、C、B

而根據網上目前多個信源得到的標準答案是:A、C、D、A、B、B、C、B。
對比來看,豆包對5道,GPT-4o答對4道。
而對於更多的數學題的作答,其實復旦大學自然語言處理實驗室在高考試卷曝光後第一時間做了更加全面的測試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):


**△**圖源:復旦大學自然語言處理實驗室
由此可見,大模型並不能完全hold住高考數學題目,並且不同人生成答案的結果也會出現偏差。
並且量子位在反覆測試後發現,豆包對話答題時有一定隨機性,多輪測試時的結果並不完全一樣。上文只取樣其中一輪的結果。
這也正如廣大網友所反饋的那般——大模型文科強、理科弱。
對此,技術圈也已經有一些討論和解釋:
大語言模型的基本原理是“文字接龍”,通過預測下一個token來生成內容,每次預測都有隨機性和概率分佈。
當大語言模型學習了海量知識數據,天然就適應考驗記憶能力和語言運用的文科考試。
但理科考試主要考驗推理和計算,比如一道數學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%。
另一方面,理科語料比較稀缺。大模型的訓練數據中,文科語料要遠遠大於理科語料。這也是大模型更擅長文科的一個原因。
大模型都在努力提升智能水平,主要目標就是提高推理和計算能力。目前學界對此存在爭議,有觀點認為,“預測下一個token”本身就包含了推理,計算也是一種推理。
只要Scaling Law生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者(如Yann LeCun)認為,大語言模型缺乏真正的規劃推理能力,其湧現能力實際上是上下文學習的結果,主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現AGI,目前還沒有定論。
那是不是大模型就不適合用户來解數學題了呢?
也並不全是。
正如剛才所説,如果用豆包手機端的“拍題答疑”,也就是RAG鏈路的方式,那麼結果的“打開方式”就截然不同了。
我們可以先用豆包APP對着題目拍照,讓它先進行識別:

結果就是——全對!

至於更多類型題目大模型們的表現會如何,友友們可以拿着感興趣的題目自行測試一番了。
如何評價?
從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到,豆包大模型已經穩穩進入國產第一梯隊。
但隨即而來的一個問題便是,過去一年多異常低調的豆包,是如何在短短一個月內就開始爆發的?
其實早在發佈之際,豆包與其它大模型廠商截然不同的路徑就已經有所體現,歸結其背後的邏輯就是:
只有最大的使用量,才能打磨出最好的大模型。
據瞭解,豆包大模型在5月15日正式發佈時,其每天平均處理的token數量高達1200億,相當於1800億的漢字;每天生成圖片的數量為3000萬張。
不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。
因此,我們可以把豆包在大模型性能上的路數,視為用**“左手使用量,右手多場景”**的方式反覆打磨而來。
一言蔽之,大模型好不好,用一下就知道了。
並且基於豆包大模型打造的同名產品豆包APP,已成為國內最受歡迎的AIGC類應用。
這一點上,從量子位智庫所彙總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目瞭然——
豆包,均拿下第一。


不僅如此,在前不久國產大模型To B市場打響價格戰之際,火山引擎也是相當“壕氣”讓大模型進入“釐時代”,1元=1250000tokens。
因此,現在要如何評價字節跳動的大模型和應用,或許就是:
多:場景多,數據多
好:各路評測都能hold住
省:是衝在價格戰頭部的選手
但也正如我們剛才所述,現在的大模型還有很大的“進化”空間。
因此對於國產大模型在未來的發展,我們還需保持持續的關注;但毋庸置疑的一點是,字節的大模型和豆包,定然是最值得期待的其中一個。
參考鏈接:
[1]https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow
[2]https://flageval.baai.ac.cn/#/leaderboard/nlp-capability?kind=CHAT
[3]https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05
[4]https://mp.weixin.qq.com/s/KYEsTA-qU72pXWnr7-iB4A