OpenAI發佈ChatGPT Agent:人類準備好交出操作權了嗎?_風聞
大模型之家-带您探索人工智能领域的重磅资讯、解码热点话题1小时前

北京時間7月18日凌晨,OpenAI如約發佈了其最新力作——ChatGPT Agent。
根據CEO Sam Altman和四位OpenAI研究員介紹,ChatGPT Agent是一個具備自主執行復雜任務能力的AI Agent,它不再僅僅“對話”,而是可以打開虛擬機,完成搜索、篩選、判斷、執行等一整套流程,最終輸出可交付的結果。
ChatGPT Agent的定位非常“簡單直接”:一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統。功能上,幾乎等於一個受控的遠程虛擬操作系統。
值得注意的是,ChatGPT Agent可以説是OpenAI自今年以來推出產品的一次階段性整合與釋放:Operator和Deep Research,一個偏執行,一個偏思考,如今徹底融合。
AI真正開始“動手”:ChatGPT Agent的能力邊界
與如今大火的“智能體”賽道的產品類似,ChatGPT Agent的最大變化,是讓AI真正獲得了對數字世界的“動手”能力。Agent模式下,用户不再是通過提示詞一步步引導ChatGPT生成答案,而是描述一個需求後,模型啓動虛擬機,自主規劃任務、調度工具、完成執行。
在演示中,OpenAI展現了其三大基礎能力組件:文本瀏覽器、可視化瀏覽器和終端。

文本瀏覽器的職責是爬梳大量信息,完成閲讀和篩選。它適合處理長文內容、查找具體數據或者跟蹤文獻,是Deep Research的延續;可視化瀏覽器則具備界面識別與交互能力,比如可以點擊網頁按鈕、識別圖像、進行鼠標操作等;終端部分支持代碼執行、API調用和複雜文件生成——如PPT、Excel、數據分析腳本等。

這些能力的協同,使Agent具備了完整的“感知-決策-執行”鏈路。比如在一次旅行安排任務中,它先用文本瀏覽器分析網頁信息、提取天氣與禮儀信息,再切換至可視化瀏覽器挑選合適禮服,最後生成整合報告。整個任務歷時僅十分鐘,遠遠快於人類的處理效率。

更復雜的場景中,Agent還能夠自動調用圖像生成API設計貼紙,然後在網站上上傳圖像、填寫參數、放入購物車,最後請用户確認是否付款。在另一個演示中,Agent還連接了Google Drive,提取文檔並自動生成PPT;或將日程數據彙總為帶地圖的電子表格行程表。
這些能力讓Agent不僅適用於內容生成,更適用於事務型任務處理,意味着它從“信息輔助”跨越到“決策+執行”。在辦公場景中,Agent可以完成會議安排、報告撰寫、差旅預訂等一系列中層管理事務。在生活場景中,它能規劃婚禮、生成資料、預約專家等個性化需求。用一個略顯理想主義但已逐步接近現實的説法:ChatGPT Agent,是人人都可以擁有的“高效執行助理”。
基準測試成績:Agent能力更接近人類水平
與以往OpenAI擅長的語言能力不同,Agent的測試指標更偏向執行能力和任務完成度。在這方面,ChatGPT Agent通過了多個廣受認可的專業評測,其結果呈現出一次系統性的躍遷。
在“人類的最後一場大考”(Humanities Last Exam)中,ChatGPT Agent獲得了41.6%的成績,幾乎是不帶工具模型的兩倍。這項測試不僅包含複雜的推理與信息調度任務,還考察模型的工具調度能力。在使用終端、瀏覽器等資源的前提下,Agent表現出對任務流程的高度掌控。
在WebArena這個網頁交互能力評測中,Agent的得分已經接近人類水平。而在SpreadsheetBench,即電子表格操作能力的標準測評中,其分數達到45.5%,較GPT-4o提升一倍。
尤其值得一提的是DSBench測試,它用於衡量數據分析與建模任務的能力。Agent在這一測試中超過了所有此前的SOTA(state-of-the-art)模型,明確表明其在面對現實數據分析任務中,不僅可用,而且強大。
這些數字背後,是OpenAI在工具調度、任務分解、推理執行上的系統性優化。可以説,ChatGPT Agent已不再侷限於“語言智能”,而是進入“操作智能”的新階段。
Operator和Deep Research子產品的融合
在大模型之家看來,ChatGPT Agent並不是從零起步的“創新”:其核心其實是Operator和Deep Research兩個子產品的融合。
Operator是今年初推出的圖形界面Agent工具,支持鼠標模擬點擊、滾動等界面操作;Deep Research則是一個偏內容分析和信息整合的工具,擅長處理複雜文字材料並輸出結構化結果。兩者原本分別服務不同需求,但用户使用行為暴露出兩者之間的邊界並不清晰。
