GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚豔了？

张广凯13764468101

2025-08-08

（文/觀察者網張廣凱編輯/呂棟）

北京時間8月8日凌晨，備受期待的OpenAI最新大模型ChatGPT-5終於正式發佈，就在同時，谷歌舉辦的首屆大模型國際象棋對抗賽中，o3也以4-0完勝Grok 4奪冠。這本該是對OpenAI雙喜臨門的一天，但作為一款關注度如此之高的產品，網友也很快發現了GPT-5的一些小小的瑕疵。

儘管大模型的能力仍然在快速進步，但其進步幅度越來越難以給人帶了驚豔感了。這不是OpenAI自己的問題，甚至某種意義上，這也不是一件壞事，因為是之前人們的預期已經被拉到過高。但無論如何，在現有的算法範式下，AI大模型或許也離瓶頸越來越近了。

GPT-5水平如何？

作為OpenAI今年最受期待又屢屢跳票的重磅產品，ChatGPT-5今天的確給出了一些頗具説服力的測評數據，證明其推理能力有着顯著進步。

例如，在數學能力測試AIME 2025上，GPT-5 Pro在開啓推理模式並調用工具（Python）的情況下，拿下滿分成績。即使不調用工具，GPT-5 Pro仍能拿下96.7的高分，GPT-5標準版也能拿到94.65分，顯著高於o3的88.9分。

編程方面，GPT-5在SWE-bench Verified上得到74.9分，高於o3的69.1和4o的30.8分。

博士水平的科學知識測試GPQA Diamond中，不調用工具的GPT-5 Pro推理模式拿到88.4分，創造新紀錄。

多模態方面，GPT-5得到84.2分，比o3的82.9分有小幅提升。

高難度的Humanity’s Last Exam（人性終極測試）上，GPT-5 Pro和GPT-5在不調用工具時分別得到30.7和24.8分，較o3的14.7分大幅提升。

大模型競技場LM Arena的評分也已經出爐，GPT-5橫掃所有單項的第一名。

此外，GPT-5推理模式的幻覺數量比o3少了六倍，成本方面則可以減少50-80%的token輸出量。

這些數據都證明，GPT-5算得上是一次成功的大版本升級。

但另人尷尬的是，在發佈會後，網友迅速發現GPT-5在解一道極其簡單的方程時又犯了計算錯誤：

看起來，GPT-5還是沒能解決小數比大小的問題。

而OpenAI發佈會PPT裏的小瑕疵，也引起了網友熱議。大家發現在這張圖表裏，柱狀圖的高度出現了明顯錯誤，但並不知道這是人為錯誤還是由AI生成。

有網友指出，在關於機翼升力原理的回答中，GPT-5也引用了一個廣為流傳的錯誤觀點。當然，這樣的問題歸咎於AI未免過於苛刻。

馬斯克則“嘴硬”稱，Grok 4在ARC-AGI測試中仍然打敗了GPT-5。

做題好是不是真的好？

那麼，如何評價GPT-5的真實水平，或許日前的大模型國際象棋對抗賽恰好給我們提供了一個很好的參考。

同樣在今天凌晨結束的對抗賽上，OpenAI旗下的o3以4-0完勝Grok 4，奪得最終冠軍。儘管Grok 4在此前兩輪中都表現出色，但在決賽中，隨着對局長度增加，Grok 4也開始表現出棋力下降。

例如在第一局中，Grok 4莫名其妙地放棄了自己的象，並且沒有獲得任何明顯的回報，而Grok 4也並未在推理中説明理由。

o3儘管表現相對出色，在昨天的半決賽中還下出過正確率評分100%的棋局，但縱觀整個比賽過程，也不乏低級失誤。

或許有人會質疑，讓AI下棋究竟能證明什麼？AI對抗賽的勝負，是不是僅僅取決於它們使用了多大規模的訓練數據？DeepSeek下棋不好，但是作詩是不是更好？

事實上，如果只糾結於下棋或者作詩的技能水平，説明並未理解谷歌採用這種比賽形式的邏輯。

此次國際象棋比賽的意義，並非考驗大模型的算力，而是考驗其推理能力。

如果大模型在接受了大量棋譜訓練之後，體現出高超棋力，這隻能證明AI的記憶力或者算力強大，而這件事在2017年就已經被AlphaGo證明過了。

但是由於這些通用大模型都沒有接受過專門的棋譜訓練，因此往往只能在開局階段憑藉記憶下出經典開局。在幾個回合之後，大模型已經無法找到人類棋譜作為參考，它們的思維結構也並非像AlphaGo那樣專為下棋設計。因此，這時候的AI推理，是跟人類相同的推理方式，通過語言邏輯來推演棋盤變化。

上述無工具的數學測試，起到的也是類似作用：考驗AI用人類邏輯進行計算的能力，而不是使用專門的機器算法。

因為無論是AlphaGo也好，還是計算工具也好，這樣的AI在特定任務中無比強大，但是卻毫無泛化性，不能解決任何其它問題。只有使用人類邏輯推理的模型，才能在人類世界中擁有最好的泛化性。

而在這個維度上，我們可以看到，無論是o3、Grok 4，還是最新升級的GPT-5，哪怕他們大部分時間都能夠解決複雜問題，但也還會犯下對人類來説的低級錯誤。這是現有的Next Token Predicting範式下仍然難以完全克服的問題，也説明它們或許離AGI的最終形態還有遙遠距離。

OpenAI顯然也不再希望把外界的胃口掉得過高。在本次發佈會上，我們可以看到OpenAI花了更多時間介紹GPT-5在垂直場景應用的能力，例如生成小遊戲、回答健康問題的能力，這都是為了讓AI與人類更好地共存與協作。