GPT-5很強,但也很無趣_風聞
差评XPIN-差评官方账号-用知识和观点Debug the world!16分钟前
千呼萬喚始出來,奧特曼終於端出來了全世界網友都心心念唸的GPT-5。
不到一天的時間,OpenAI的發佈推文就獲得了300萬閲讀,3萬點贊;世超的朋友圈、羣聊,也全是被GPT-5刷屏的。

雖然大傢伙都喊着OpenAI越來越拉了,再也不用了,但每次他們發佈新模型,AI圈都得震一下,關不關注AI的都會來聊上一嘴。
果然,大家還是忘不了ChatGPT。。
所以,GPT5到底咋樣?用奧特曼的話來説,這是他們做過的最智能的模型,還説在任何領域,GPT-5都達到了博士級別的水平。

但從網友的反應看,不少人都在對這個船新版本GPT發出鋭評,抱怨這玩意根本就不是GPT-5,還不如grok。

Polymarket上還發起了一個叫“哪家公司在八月末擁有最頂級的AI模型”的競猜,結果就在發佈會剛開完時,谷歌和OpenAI的賠率來了個兩極反轉。

最搞的是,在發佈會的時候,OpenAI放了張柱狀圖,在比較大模型寫代碼的準確度時,52.8%畫得比69.1%還高,小學生都畫不出來,這一波黑子白子都洗不了了。。

但我覺得吧,網友反應這麼大,主要還是奧特曼吹得太狠了,還沒發佈的時候,AI圈還沒震,自己就開始震上了。

該説不説,GPT-5的跑分是挺強的,在大模型競技場LMArena上奪得了大滿貫,全方位第一。

但到底好不好用,只有用户親身體驗過才知道。在體驗了一圈GPT-5後,世超得出的結論是:沒那麼驚豔,不如叫GPT4.6。
首先,讓大家最稱讚的,還是GPT-5的編程能力。咱就和競技場榜二Gemini 2.5 pro掰頭一下。
首先我讓它模擬了下我們高中就學過的彈性碰撞。
提示詞:我是一名高中生,通過物理模擬讓我理解彈性碰撞。

這傢伙確實做得不錯,不僅在球上把速度方向標註出來了,還能在碰撞中絲滑改變球的大小。
Gemini做得也還行,但總體感覺絲滑度上不如GPT,我一改變大小,球就卡住了,讓我們強迫症非常不適。

接着,我掏出了我最愛的多米諾骨牌,這玩意我試過很多AI,基本都很難做出來。。
首先是GPT-5,這牌做得還真有點東西,非常的有動感。。
提示詞:模擬多米諾骨牌的物理過程,左鍵放牌,右鍵倒牌。

Gemini這邊呢,就理解得不是很好了,雖然也能倒吧,就是給哥們把牌掛到天上去了。。

當然這只是幾個好的案例,也有比較搞笑的時候。。
我簡單描述了下需求,讓它生成了一個開飛船的遊戲,沒別的,主要是想開飛機。

它寫出來的,只能説很一般,尾焰和動力根本不是一個方向,我直接出門即墜機。。

除了這些,其他更新基本都是對現有能力的進一步優化。OpenAI這次的更新似乎就是朝着“節能高效”這個方向去的,完全不同於之前GPT3.5到4那樣飛躍式的更新。
根據 OpenAI 官方博客的介紹,GPT-5 在思考和輸出上都更加高效。它在保證準確率的同時,思考時間更短,輸出的 Token 數量也減少了 50% 到 80%。
而且,GPT-5 對困擾大夥已久的幻覺問題也出了狠手,它的事實錯誤率比 GPT-4o 低了 45%,思考時的事實錯誤率更是比 GPT-4o 低了約 80%。

也就是説,GPT-5 變得更加誠實了。它清楚自己的能力邊界,遇到不會的問題會直接説“不會”,做不到的事情會直説“做不到”,而不是像以前一樣一本正經地胡説八道。
當然,對於俺們編輯來説,模型最重要的應該是寫文章的能力,畢竟能幫我們上班(當然不是)。
但我體驗了一圈下來,GPT-5給我的感覺,就像一個靠靈性吃飯的詩人,突然間失去了靈感。。
它在邏輯、推理、數學、編程這些需要嚴密思維的領域,達到了前所未有的高度,但文本創作這塊,它卻顯得有些力不從心。
我先讓GPT-5,撰寫了一段誇自己的文字,説是得有生活氣息,不能太尬。
結果我看了下,給我寫了首詩,略微肉麻。。

接着,我們來看看Gemini怎麼誇自己。(因為我讓Gemini誇GPT5,它拒絕了)

雖然説文無第一,但我還是感覺Gemini寫的,AI味道更淡一些。
如果要量化的話,你數一下兩段話破折號和引號的數量,你就懂了。
雖然發佈會上説,GPT-5大幅減少了幻覺。但結果是它的文本變得過於保守和安全,那種信手拈來的奇妙比喻,那種讓人拍案叫絕的獨特視角,好像少了一些。
此外,網上有很多人控訴,在發佈GPT-5的同時,OpenAI還強行刪除了5之前的其他模型。。
現在,你打開GPT的界面,在模型選擇的下拉菜單裏,你基本只能看到GPT-5選項。

只能説,這操作確實有點離譜。畢竟國內的模型都能讓我們決定是否“深度思考”,有時候需要又快又準,有時候也需要多而廣,現在OpenAI卻直接替用户做主,把所有選擇權都收回去了。
當然也有些人説好,畢竟有些人是選擇困難症,就喜歡別人幫他做決定,這就仁者見仁了。
但世超發現,ChatGPT的Pro會員還是能使用之前的舊模型的,屬於是有點區別對待了。。(如果你希望用回 GPT-4o/4.5,在頭像-設置裏勾選顯示傳統模型,就可以切回傳統模型了)

不僅如此,官方的偷偷降智行為,也不是很厚道。。
就那個奧特曼在發佈會上展示的做音樂的例子,如果你的GPT-5被降智了,你是復刻不出來的,感興趣的差友可以去試試。。

總的來説,比起基礎能力的巨大提升,這次 OpenAI 的更新更值得關注的是其“實用第一”的策略。
一方面,這可能意味着大模型在基座性能升級上遇到了一定的瓶頸。另一方面,這種方向的調整確實有意義。畢竟,在過去幾年裏,大模型為了追求性能的狂野升級,導致幻覺、成本等 AI 常見問題一直被放在次要位置。
如今,隨着 OpenAI 的周活躍用户已經達到 7 億,在性能升級有限的情況下,是時候好好打磨一下產品體驗了。
但大夥還是需要一些期待的,畢竟很久沒有過一個開天闢地的新模型了。
所以下一個被寄予厚望的模型是誰呢?
就決定是你們了,DeepSeek R2 和 Gemini 3.0!
圖片、資料來源:
OpenAI、X、部分圖源網絡
