OpenAI發佈ChatGPT Agent：人類準備好交出操作權了嗎？_風聞

大模型之家-带您探索人工智能领域的重磅资讯、解码热点话题1小时前

2025-07-18

北京時間7月18日凌晨，OpenAI如約發佈了其最新力作——ChatGPT Agent。

根據CEO Sam Altman和四位OpenAI研究員介紹，ChatGPT Agent是一個具備自主執行復雜任務能力的AI Agent，它不再僅僅“對話”，而是可以打開虛擬機，完成搜索、篩選、判斷、執行等一整套流程，最終輸出可交付的結果。

ChatGPT Agent的定位非常“簡單直接”：一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統。功能上，幾乎等於一個受控的遠程虛擬操作系統。

值得注意的是，ChatGPT Agent可以説是OpenAI自今年以來推出產品的一次階段性整合與釋放：Operator和Deep Research，一個偏執行，一個偏思考，如今徹底融合。

AI真正開始“動手”：ChatGPT Agent的能力邊界

與如今大火的“智能體”賽道的產品類似，ChatGPT Agent的最大變化，是讓AI真正獲得了對數字世界的“動手”能力。Agent模式下，用户不再是通過提示詞一步步引導ChatGPT生成答案，而是描述一個需求後，模型啓動虛擬機，自主規劃任務、調度工具、完成執行。

在演示中，OpenAI展現了其三大基礎能力組件：文本瀏覽器、可視化瀏覽器和終端。

文本瀏覽器的職責是爬梳大量信息，完成閲讀和篩選。它適合處理長文內容、查找具體數據或者跟蹤文獻，是Deep Research的延續；可視化瀏覽器則具備界面識別與交互能力，比如可以點擊網頁按鈕、識別圖像、進行鼠標操作等；終端部分支持代碼執行、API調用和複雜文件生成——如PPT、Excel、數據分析腳本等。

這些能力的協同，使Agent具備了完整的“感知-決策-執行”鏈路。比如在一次旅行安排任務中，它先用文本瀏覽器分析網頁信息、提取天氣與禮儀信息，再切換至可視化瀏覽器挑選合適禮服，最後生成整合報告。整個任務歷時僅十分鐘，遠遠快於人類的處理效率。

更復雜的場景中，Agent還能夠自動調用圖像生成API設計貼紙，然後在網站上上傳圖像、填寫參數、放入購物車，最後請用户確認是否付款。在另一個演示中，Agent還連接了Google Drive，提取文檔並自動生成PPT；或將日程數據彙總為帶地圖的電子表格行程表。

這些能力讓Agent不僅適用於內容生成，更適用於事務型任務處理，意味着它從“信息輔助”跨越到“決策+執行”。在辦公場景中，Agent可以完成會議安排、報告撰寫、差旅預訂等一系列中層管理事務。在生活場景中，它能規劃婚禮、生成資料、預約專家等個性化需求。用一個略顯理想主義但已逐步接近現實的説法：ChatGPT Agent，是人人都可以擁有的“高效執行助理”。

基準測試成績：Agent能力更接近人類水平

與以往OpenAI擅長的語言能力不同，Agent的測試指標更偏向執行能力和任務完成度。在這方面，ChatGPT Agent通過了多個廣受認可的專業評測，其結果呈現出一次系統性的躍遷。

在“人類的最後一場大考”（Humanities Last Exam）中，ChatGPT Agent獲得了41.6%的成績，幾乎是不帶工具模型的兩倍。這項測試不僅包含複雜的推理與信息調度任務，還考察模型的工具調度能力。在使用終端、瀏覽器等資源的前提下，Agent表現出對任務流程的高度掌控。

在WebArena這個網頁交互能力評測中，Agent的得分已經接近人類水平。而在SpreadsheetBench，即電子表格操作能力的標準測評中，其分數達到45.5%，較GPT-4o提升一倍。

尤其值得一提的是DSBench測試，它用於衡量數據分析與建模任務的能力。Agent在這一測試中超過了所有此前的SOTA（state-of-the-art）模型，明確表明其在面對現實數據分析任務中，不僅可用，而且強大。

這些數字背後，是OpenAI在工具調度、任務分解、推理執行上的系統性優化。可以説，ChatGPT Agent已不再侷限於“語言智能”，而是進入“操作智能”的新階段。

Operator和Deep Research子產品的融合

在大模型之家看來，ChatGPT Agent並不是從零起步的“創新”：其核心其實是Operator和Deep Research兩個子產品的融合。

Operator是今年初推出的圖形界面Agent工具，支持鼠標模擬點擊、滾動等界面操作；Deep Research則是一個偏內容分析和信息整合的工具，擅長處理複雜文字材料並輸出結構化結果。兩者原本分別服務不同需求，但用户使用行為暴露出兩者之間的邊界並不清晰。