GPT-5離“神級AI”還有多遠?_風聞
定焦One-深度影响创新。51分钟前
定焦One(dingjiaoone)原創
作者 | 王璐
編輯 | 魏佳
多次跳票後,GPT-5終於亮相。
美國西部時間8月7日(北京時間8月8日凌晨),明星AI創業公司OpenAI發佈了新一代大模型GPT-5,並向所有用户開放使用,包括免費用户。
這是OpenAI近年來最受關注的一次升級,其CEO薩姆·奧特曼(Sam Altman)在發佈會上宣稱,GPT-5的能力已從“大學生水平”躍升至“博士級專家”,並強調該模型在綜合能力上已達到全球最高。
這次發佈會的關鍵詞可以簡單概括為兩個詞:“專業”和“聰明”。“專業”體現在它在健康、編程、教育等多個場景中展示了更強的能力,同時降低幻覺率,提升了可靠性;“聰明”則主要是它首次採用集成架構,GPT-5能夠根據用户指令的複雜度,自動調用最合適的模型,無需用户手動切換,並支持更多個性化功能。
然而,外界反饋卻較為平淡,部分用户和從業者認為,GPT-5“缺乏驚喜”。
這一方面是因為此前版本發佈頻繁,預期被不斷拉高。
AI從業者雲中江樹在發佈會前便對GPT-5持觀望態度,因為從過去幾輪GPT的升級來看,實際表現往往低於宣傳,但仍期待它這次能在推理和編程上帶來突破,真正拓寬應用場景。
然而從目前來看,業界公認在推理能力上領先的模型仍是GPT-o系列和DeepSeek-R1。GPT-5的進步更多是對既有能力的優化,而非質的飛躍。
另一方面,儘管GPT-5降低了幻覺率,但發佈會上出現的兩處低級錯誤仍然引發爭議。
一是它在解釋伯努利效應時,錯誤地採用了被主流物理學教材已經證偽的“等時通過理論”,“博士級AI”居然講錯高中物理。二是在製作圖表時,GPT-5某項評分(52.8)明明低於o3模型(69.1),對應的柱狀圖卻顯示更高,這也讓外界懷疑GPT-5的能力被誇大了。
GPT-5的真正實力到底如何?會給行業帶來哪些影響?
“神級”GPT-5,真的強嗎?
發佈會開場,薩姆·奧特曼便高贊GPT-5的強大,強調其相較前代模型已經發生質變。他表示,如果GPT-4像是和一位大學生進行交談,GPT-5則接近於博士級別專家。
為了證明這一點,OpenAI公佈了Artificial Analysis全套基準測試結果。數據顯示,GPT-5(high)達到68分,位列第一。GPT-5(medium)67分,與xAI的Grok 4並列第二,而DeepSeek R1是65分,排在其後。
這些數字表明,GPT-5在速度、可靠性和準確性上均處於行業領先地位,尤其在複雜推理、編程、醫療健康等領域表現突出。
例如,在醫學領域,GPT-5展示了對患者檢查報告和各種醫學術語的理解能力,還以此為基礎提醒患者需要向醫生諮詢哪些問題,上下文理解與知識應用能力遠高於之前的GPT-4。
除了更加“專業”,在使用體驗上,GPT-5變得更聰明瞭。
最大的改變是,OpenAI採用了集成架構,首次將大語言模型GPT系列和推理模型o系列融合。這意味着,GPT-5能夠根據用户指令的複雜度,自主選擇並調用最合適的模型,不再需要用户手動切換。
具體來説,GPT系列是OpenAI最早構建的模型體系,聚焦自然語言處理、對話系統與文本生成,o系列是OpenAI於2023年新設立的模型家族,聚焦結構化推理能力,強調模型的邏輯、分析、工具調用能力。o3被視為OpenAI最強大的推理模型。
此外,GPT-5還變得更像人。
一方面支持定製語音、語速調節等個性化功能,語音效果已十分接近真人,另一方面具備“助理”功能,比如鏈接谷歌日曆、Gmail等工具,自動識別未回覆郵件、生成待辦事項,提升使用者工作效率。
石榴數字人創始人沈仁奎評價,GPT-5在多模態與工具整合上的升級,能顯著提升實用性和交互體驗 。其即時交互模型與深度推理模型之間的融合也更成熟,模型角色劃分清晰,還具備長期記憶用户信息,能為用户提供更精準、更個性化的體驗。
他認為,GPT-5的“模型羣+路由系統(判斷問題難度從而自動調用最合適的模型)”架構設計很值得借鑑,有助於大模型在不同任務之間智能調度與資源優化。
目前,GPT-5已經面向免費、Plus、Pro等用户開放,對企業和教育用户下週開放,按照企業級套餐計費。免費用户使用有額度限制,付費用户中,Plus用户可以獲得更高的使用額度,Pro用户可專屬訪問GPT-5 Pro,區別在於推理能力更強、響應更加快速。
發佈會後,行業最關心的三個問題
本次發佈會後,「定焦One」和幾位資深從業者聊了聊,他們最關注GPT-5的三大變化。
一是幻覺率降低。
“幻覺”是指大模型編造虛假信息,幻覺率越低,説明準確性越高,大模型越可靠。
披露的數據表明,GPT-5在多個使用場景下的幻覺率相比前代模型有所下降。比如在聯網搜索模式下,GPT-5的幻覺率比GPT-4o低約45%,而在深度思考模式下,幻覺率比o3低約80%。
這意味着,其在回答準確性、邏輯一致性等方面有所提升,更適用於醫療、法律等對信息真實性要求極高的應用場景。
幻覺率的降低與多方面因素有關,這種改進背後,是訓練數據、模型架構與推理策略的協同優化。
二是價格更具性價比。
GPT-5包含GPT-5、GPT-5 mini、GPT-5 nano三個模型,API調用價格分層設置,最低的是GPT-5 nano,每百萬輸入token為0.05美元、輸出為0.40美元,比GPT-4最便宜的模型還要低。相比老對手也有很大優勢,GPT-5的調用費僅為Claude Opus 4的十二分之一。
這對於中小企業與開發者而言,意味着更低的試錯成本與更廣泛的應用空間。
最後是在編程領域的突破。
這也是發佈會上的重中之重,OpenAI用了近一半的時間強調GPT-5的編程實力,官方稱其為“迄今為止最強大的編程模型“。在現場演示中,GPT-5僅憑一句提示詞,就創建出網站、應用程序App和遊戲,並支持複雜前端開發和大型代碼庫調試以及修復 bug等功能。
OpenAI甚至還邀請了被稱為最強AI編程工具之一Cursor背後公司的聯合創始人,在現場演示修復bug。Cursor方面表示,GPT-5已經是Cursor用户的新用户默認選項。
從基準測試數據來看,GPT-5的表現同樣領先。在SWE-bench Verified(評估AI編程能力)中,GPT-5思考後首次嘗試的準確率達74.9%,高於GPT-o3的69.1%和GPT-4o的30.8,也領先於競爭對手Anthropic最新推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro。
雲中江樹告訴「定焦One」,大模型的編程能力之所以備受重視,是因為各大廠商都認可,在AI大模型訓練中,最好的數據是形式化的數學語言,代碼數據高度結構化、結果可驗證、邏輯性強,是最具價值的語料類型。
一位從業者分析,採用分階段、分領域的漸進式研究策略,能顯著提升模型的綜合性能。他還以DeepSeek的誕生過程為例,它先進行數學相關任務的專項研究,接着進行代碼生成與理解任務的研究,最後應用到通用模型,最終出現了DeepSeek-R1。
“這種路徑能有效提升模型的邏輯推理和結構化思維能力。目前,國際科技巨頭以及國內領先的AI研究機構,都在採用類似的漸進式策略。”這位從業者表示。
目前來看,GPT-5在編程能力上的提升已經得到了廣泛認可,但在垂直領域適配、工具調用效率上還有提升空間。
一位軟件工程師表示,相比Anthropic的Claude、亞馬遜的CodeWhisperer等垂直領域的AI編程工具,GPT-5對特定技術棧的適配性可能存在不足。他覺得,GPT-5的優勢在於通用性,而非專業編程。
此外,在使用體驗上,用户反饋也出現分化。有開發者稱GPT-5生成效果驚豔,有人卻遇到了“生成網頁無法點擊、代碼無法運行“等問題,生成效果很不穩定。這也説明,儘管GPT-5在編程能力上取得突破,仍需時間和反饋不斷迭代完善。
技術不算質變,但能推動AI商業化
儘管GPT-5實現了多維度的升級,但多位從業者認為,這更像是一次架構與工程優化升級,而非真正意義上的代際躍遷。
從產品實際表現來看,GPT-5仍存在不少短板。
比如發佈會上,它在回答伯努利效應解釋等複雜科學問題,便暴露出了AI慣有的缺陷,在推理時只注重統計關聯,而不理解內容本質。在生成圖表時,還出現了52.8分的柱狀圖比69.1分更高的明顯錯誤。儘管薩姆·奧特曼隨後公開回應,暗示可能是AI尚未完全掌握PPT製作技巧,但還是引發外界對GPT-5能力的懷疑。
多位從業者認為,薩姆·奧特曼宣稱的“博士級專家”能力,更像是場景化性能的堆砌,而非大模型認知能力有了突破,這與其前期過度宣傳的“神級能力”存在很大差距。這也導致外界對本次GPT-5的評價一般。
不過,沈仁奎指出,雖然GPT-5並非是全行業顛覆式的升級,但在推動AI商業化上的作用不容低估。尤其是開放API,為企業提供了極低門檻的接入方式,可能會成為許多企業快速部署AI能力的“加速器”。
他觀察到,目前一些垂直類企業,比如醫藥、生物科技等領域的企業以及Uber、Salesforce等已部署GPT-5,應用於科研分析、客户服務與運營決策等環節。在部分新興工具平台,比如Cursor、Windsurf等開發平台也已集成GPT-5,來改善自身的編程效率與智能交互體驗。企業們願意積極擁抱GPT-5,除了其能力有所升級外,也在於“白菜價”的API策略。
他認為三類企業會率先吃到GPT-5的紅利,第一類為軟件開發平台,利用GPT-5自動代碼生成、調試與工具鏈集成,提升開發效率;第二類是專注於知識管理與決策系統的公司,GPT-5能快速深入並解決金融、醫藥、法律等需複雜推理與輔助決策的場景;還有消費級智能服務類企業,它們涉及大量寫作助手、學習平台與跨媒體內容創作服務,可藉助GPT-5的多模態與個性化提升使用體驗。
值得注意的是,OpenAI這次還打起了ToG的主意。它與美國總務管理局進行合作,在未來12個月裏,ChatGPT企業版將對美國聯邦政府開放,每個機構只需要支付1美元,所有員工便可無限制使用OpenAI的前沿大模型技術。
OpenAI的以上種種動作,展現出藉着GPT-5從“平台工具”加速向“社會基礎設施”轉型的野心。即便其能力未達“神級”,但其所激發的商業潛力和行業聯動效應,仍可能在未來掀起一波新的AI應用高潮。
某種意義上,GPT-5帶來的最大改變,或許不是模型本身,而是它所觸發的生態。AI的戰爭,已經從模型能力比拼,走向基礎能力與商業落地的全面競賽。
*題圖來源於OpenAI官網。