信AI排行榜，不如信它們的遊戲排位分數_風聞

差评XPIN-差评官方账号-用知识和观点Debug the world！26分钟前

2025-08-17

文章開頭問大家一個問題，如果想知道最近哪個 AI 牛，你會怎麼查？

直接上 AI 競技場，XX 排行榜？

沒錯，這些是有一定參考能力。

但看完最近大模型圈的電競比賽後，我覺得現在多一種更靠譜的辦法了，那就是看——

AI****的遊戲排位天梯。

前幾天，Google 旗下 Kaggle 舉辦了首屆 AI 國際象棋比賽，一共有 8 名選手參加，個個都是狠角色。

什麼 Gemini 2.5 Pro、Grok 4、DeepSeek R1。。

比賽規則很簡單。每場對決為“ 四局兩勝制 ”，誰先拿到2分（勝1分，平0.5分）誰晉級。如果打成 2-2 平，將加賽一場絕殺局。

比賽過程中，我們還能看到這些職業選手的思考過程，看看他們如何應對對方的進攻，看待自己的失誤。

結果説起來你可能不信，在眾多排行榜都保持第一的 Gemini，只拿下季軍。

而 GPT-o3，則以一把沒輸的絕對統治力，奪得冠軍。

看到這，可能有差友好奇，為啥要讓這些大模型下棋啊，誰贏誰輸和咱有關係麼？

因為國際象棋，更能讓你看出 AI 的實力。

相比那些傳統排行榜，國際象棋考驗的是一套無法靠刷題速成的綜合能力，更能展示出一個大模型的思考、湧現能力。

過去，我們要想知道哪個模型牛，主要看兩種榜。

第一種就是 AI 競技場 LMArena，可以把它理解為大模型圈的《蒙面歌王》。

你隨便問個問題，它給你兩個匿名模型的回答，你覺得哪個好就投哪個。

聽起來很公平是吧？但它也有不少缺點。

首先圈子太小了。

我不提，可能很多人都沒聽過這網站。天天泡在上面投票的，不是專業的技術人員，就是一些前沿科技發燒友。

這些人的問題和對答案的主觀判斷，跟咱們普通人可能並不一樣。

這就導致 AI 競技場排名，更像是一種技術愛好者的口味榜，並非適合你我。

其次，嘴甜的大模型在這種模式裏，很容易佔便宜。

很多時候，大夥兒不會去做事實核查。

如果有一個模型説錯了所有答案，但它回答地頭頭是道，答案很清晰，邏輯也很自洽，那它很有可能騙走一堆不該有的票數。

除了 AI 競技場這種主觀排行榜，大模型還有 MMLU Pro和 AIME 這類客觀基準測試。

MMLU 全稱是大規模多任務語言理解，它包含了從初中水平數理化到研究生水平的歷史、科學、法律等 57 個科目，MMLU Pro 則在此基礎上進一步加大難度，總之它可以迅速衡量一個模型知識面的寬度。

AIME 也類似，這是美國高中生數學競賽體系中的一環，可以測試出大模型們的邏輯推理深度。

這兩類考試的優點，都是極度客觀。

但缺點也很致命。

一個大模型的 MMLU 分數高，只能説明它讀過很多書，或者提前訓練了題庫，並不能反饋出模型的理解能力。

它可能知道“火鍋瞎掉一隻眼是哪一年”，但不一定能分析出火鍋瞎眼對狗圈顏值會帶來多大損失。

而且啊，從去年開始，幾個頭部大模型們正確率就已超過了 80%，正不斷接近於人類專家水平（89.8%），我們也很難看出這些模型之間的實力差距。

同樣，AIME 只能測試一種非常線性的、基於數學公理的邏輯。

但真實世界的問題，哪有像數學題這樣邏輯清晰、條件充分的。

一個在 AIME 裏爆殺的大模型，或許並不擅長幫你解讀電影，幫你怎麼理解領導的話中話。

到這，你應該能明白 Kaggle 搞這場象棋比賽的邏輯了——

別再讓 AI 考試和選秀了，到底有沒有實力，直接線下真實一波就知道了。

畢竟大眾普遍需要的，是一個能在複雜、多變的環境中，即時解決未知問題的大模型。

而遊戲，就是一個很不錯的修羅場。

因為你想在遊戲裏贏，光會背書沒用，每一次對局都是完全不一樣的。

在遊戲中，你也得有大局觀，不能只盯着眼前這一步，最關鍵的是，還得有應變能力，對手一出招，局面又會發生變化，你要會調整戰術，甚至思考要不要壯士扼腕。

這些能力，在靜態的考卷上是絕對測不出來的。

雖然這次比賽直播採用錦標賽形式，但最終的排行榜是由全對全系統決定，這些大模型還要幕後進行上百場比賽，最終才會出現一個動態排行榜，給大家查看排名。

國際象棋的比賽結束後，Kaggle 還會繼續舉辦其他遊戲比賽，比如撲克牌，甚至是狼人殺。

該説不説，以後的 AI 排行榜，可能會越來越刺激了。

圖片、資料來源：

Kaggle Game Arena Chess Exhibition Tournament 2025

2025 Kaggle Game Arena Chess Exhibition Tournament: Official Discussion Thread

Chess NewsKaggle AI Chess Exhibition Tournament LIVE

Chess Text Input Leaderboard | Kaggle

Google Kaggle 舉辦 AI 國際象棋錦標賽，評估領先模型的推理能力