AI觀察|面對“刷分”，大模型測試集到了不得不變的時刻

2025-05-12

【環球網科技報道記者秦耳】近日，有關“人類最後的測試”這一大模型測試集，在AI領域引發熱議。起因是在OpenAI擔任研究科學家的姚順雨近日寫了一篇他對於AI大模型發展思考的文章《AI的下半場》（The Second Half），文章中他提到了“人類最後的測試”以及對於大模型能力測試的看法，行業中引發討論。在他看來行業內的主流AI大模型已經通過了圖靈測試，讓人工智能到達了AGI（通用人工智能）的標準。現有的大模型測試集，不足以評判如今快速迭代的大模型能力。

無獨有偶，在業內討論AI測試之際，谷歌CEO皮查伊在社交媒體平台上慶祝谷歌旗下模型Gemini 2.5 Pro完成通關經典遊戲《精靈寶可夢藍》的測試。全球兩大主流AI企業不約而同地關注大模型測試，這本身就能説明AI測試的重要性。現行的大模型集出現了什麼問題，讓業內關注起模型測試的迭代升級？

自2023年3月GPT-4發佈，引發了市場社會對於AI的火爆關注，由GPT-4帶動的AI測試集MMLU猶如手機評測界的“安兔兔”，在大模型測試中備受關注。以MMLU為主的各種衍生集，比如MMLU-Pro、MMLU-CF等測試集，成為之後雨後春筍發展的各類大模型發展中的必經之路。

既然是發佈上市的“必經之路”，圍繞如何通過“測試集”就成為部分AI大模型的重中之重，由此也引發出AI大模型的“作弊”，即圍繞特點大模型測試集進行主動“刷分”，以謀求在該測試集上得到較高的排名。結果是，一個開發者做的模型把在這些測試集上的表現當作重要考量目標，那隻要足夠長的訓練後，就一定可以得到很好的成績。但與此同時，和這些訓練集內容無關的問題，回答質量就不如人意。

很現實的影響是，目前主流大模型廠商對這些已經被“作弊”弄得千瘡百孔的測試集，已經失去興趣，開始謀求新的AI測試工具。上文中提到谷歌對大模型通過遊戲測試表現出如此高的興趣，這也符合邏輯。

除了“作弊”，拋棄現有大模型測試集另一個方面在於，現有的大模型測試集並不能真實地反映出當前主流大模型的能力。例如，2024年9月之後出現的幾個模型，o1、Sonnet-3.5、Gemini 1.5、Llama 3.1，在做MMLU測試的時候，都是90-95分的水平，沒有出現區分度。

面對這樣的情況，OpenAI牽頭做出了FrontierMath測試集，這是一個在數學方面較好的測試集。在基礎版的測試場景下，不同模型的表現差異顯著。2023 年 5 月發佈的 GPT - 4o 在該測試中正確率約為 1%；Sonnet 3.5 的正確率相對略高，達到 1.5%左右；Gemini 1.5 Pro 的正確率約為 1.2%；馬斯克旗下的 Grok 2 Beta 正確率約為 0.9%。但當測試對象換為 2025 年 1 月 OpenAI 最新上線的 o3 模型時，情況發生了巨大變化，其正確率高達 25%，這一成績是其他模型正確率的十幾倍。

不過，近期有業內人士爆出，OpenAI曾經主動向出題方索要到數據庫訪問權，FrontierMath的題庫和解答都盡在眼底。這種“既當裁判員，又當運動員”的行為，也讓FrontierMath測試集失去了成為主流測試集的機會。

總而言之，在AI行業內設立一個多方都認可的AI測試集已經成為行業共識。不過是否能夠公正地找到這個多方都認可的測試集，目前還是在多方博弈之中。目前，已經有業內人士透露，作為第三方一家為AI模型提供訓練數據的公司Scale AI和美國AI安全研究聯盟的核心成員非營利性的研究AI安全的學術機構CAIS，正在攜手設計新的模型測試集。