OpenAI的GPT-5首日評價褒貶不一,引發困惑——彭博社
Emily Forgash
OpenAI首席執行官山姆·阿爾特曼
攝影師:阿爾·德拉戈/彭博社數月來,OpenAI首席執行官山姆·阿爾特曼一直在大力宣傳GPT-5的能力,將其發佈定位為公司的重要時刻。但在發佈後的最初24小時內,這款新模型獲得的評價褒貶不一。
在週四的公告中,OpenAI表示GPT-5在編碼和解決複雜問題的推理能力上有所提升,並宣稱其先進程度足以將聊天機器人ChatGPT提升至博士級專家水平。部分提前體驗者對其給予了謹慎的好評。“這是我最喜歡的新模型,”開發者西蒙·威爾森在博客文章中稱其“可靠”且“偶爾令人驚豔”,但他補充道:“它並未與之前版本有顯著差異。”
然而在各大社交媒體平台上,ChatGPT用户對GPT-5仍會編造信息、在簡單數學和拼寫問題上出錯表示失望。本特利大學數學副教授諾亞·詹西拉庫薩認為這次發佈“令人失望”,他表示雖然存在“一些改進”,但“比我期望的要有限得多”。
至少部分反應可能源於對底層運行機制的不解。與OpenAI之前的軟件不同,GPT-5會根據查詢內容自動在不同複雜程度的模型間切換。這種方式有助於最大化公司的計算資源,但也意味着用户並不總是使用到OpenAI最強大的技術版本。
例如在被要求統計"blueberry"中字母"b"出現次數時,GPT-5在測試中最初回答"三次"。但當被告知"再仔細想想"後,GPT-5似乎啓用了更高級的推理模型,最終給出了正確答案。
上週五,阿爾特曼回應部分用户反饋時承認系統問題:“從今天起GPT-5會顯得更聰明。昨天自動切換器故障停用大半天,導致GPT-5表現得異常遲鈍。”
此次發佈關係重大。OpenAI正竭力保持對中美競爭對手的領先優勢,同時努力説服企業和個人用户付費使用其高級服務,以彌補其在人才、芯片和數據中心支持AI開發的鉅額投入。
這家總部位於舊金山的公司近三年前發佈ChatGPT引爆生成式AI熱潮,最初搭載的是更早的GPT-3.5模型。此後該公司陸續推出多款日趨複雜的系統,包括多個能模擬人類推理過程的版本。
隨着人工智能系統不斷進步,要明確判斷各類服務的優劣變得愈發困難。截至週五中午,GPT-5已在LMArena(一個基於用户排名的熱門AI模型排行榜)多個類別中登頂。但另一項基準測試ARC-AGI-2顯示,GPT-5落後於埃隆·馬斯克xAI公司最新版本的Grok。
在缺乏更權威評估的情況下,模型之爭有時會淪為感覺之爭。如今每週有近7億人使用ChatGPT,人們對模型體驗的評價必然存在分歧。要評估新AI系統在個人生活和職業中的價值,僅用一天時間也遠遠不夠。
賓夕法尼亞大學沃頓商學院教授伊桑·莫利克經常進行AI模型實驗,他對GPT-5的研究能力、撰寫巧妙文字回覆以及簡化編程(即使對新手而言)的表現讚歎不已。
“GPT-5會自主完成各種任務,常常是超凡的,有時是怪異的,有時是非常AI化的,“他在博客文章中寫道,“而這正是它如此有趣的原因。”
然而Reddit上的反應截然不同。在週五平台舉行的“問我任何事"活動中,奧特曼遭遇了用户的質疑,這些用户因無法對響應查詢的模型擁有更多選擇權和透明度而感到沮喪。奧特曼表示OpenAI將採取措施解決這些投訴,包括提高"透明度”。
有一次,阿爾特曼在回覆一位Reddit用户的問題時提到,OpenAI認為GPT-5某個版本的"寫作質量"優於GPT-4.5。隨後他反問道:“你覺得它更差嗎?“用户們紛紛迅速回應:是的。