AI智能體元年真來了？這次中國與OpenAI站在同一起跑線

连政guanchazhewanxgun

2025-01-24

才剛剛1月，OpenAI就正式宣佈進軍AI智能體領域，中國公司智譜也推出新一版的GLM-PC 1.1。從回答問題到執行任務，AI智能體元年真的來了？

當地時間1月23日，美國人工智能公司OpenAI正式推出首款AI智能體Operator（意為操作員），這是OpenAI的首個AI智能體。Operator號稱能夠模擬人類操作瀏覽器完成購物、訂餐、論文整理等操作，通過融合視覺識別與高級推理的CUA模型實現複雜步驟規劃。

具體的工作流程上，Operator會根據需求捕獲屏幕畫面，再將其添加到模型上下文，並通過GPT-4o的視覺能力準確理解界面內容，再依靠強化學習的推理能力制定下一步計劃，最後使用虛擬鼠標和鍵盤，精確執行點擊、滾動或輸入的界面操作，直到任務完成或需要用户輸入。

OpenAI創始人奧特曼介紹稱，目前Operator將以每月200美元的訂閲費，率先面向美國ChatGPT Pro用户開放測試。

而就在同一天，中國公司智譜AI也對外發布了去年12月公佈的AI智能體GLM-PC 1.0的升級版 —— GLM-PC 1.1，本次更新優化多種任務流程，甚至被業內人士稱為“2.0也不為過”。智譜的 GLM-PC 不僅能自動處理文件、發送定製化微信內容，還通過借鑑人類的左右腦分工，以“左腦邏輯+右腦感知”的雙引擎架構實現多模態交互，甚至生成代碼與視頻內容，展現超越文本生成的操作層突破。

其中，智譜公眾號文章還實機演示了在淘寶中一鍵加購辣條等產品、截取小紅書春節檔圖片轉發微信羣聊並詢問觀看意願、以及給這個羣聊的成員每人單獨小窗發送一段2025年新春祝福語和AI自動生成的蛇年主題圖片。

新春祝福甚至可以按照每人名字定製發送。智譜AI

智譜介紹，新版 GLM-PC背後是智譜自主研發的多模態模型 CogAgent 與代碼模型 CodeGeex 的深度融合。以代碼形式指揮工作流程和工具調用，並強化了深度思考模式下的規劃、推理、反思能力，從而能夠穩定高效地應對複雜場景與任務。實際執行時，GLM-PC 能感知多層環境反饋，協助反思，以有效自我糾正與優化。

當前，通用人工智能技術已進入OpenAI所分類的L3級（智能體）階段，核心競爭圍繞各家企業模型的自主操作能力展開。

除了OpenAI和智譜，谷歌、微軟、Anthropic以及國內等眾多AI公司也都相繼推出類似產品。上海人工智能產業研究院院長朱兆穎此前就曾預測，AI智能體將是生成式AI的下一個前沿，預計2025年市場規模將達100億美元以上，2025年將成為AI智能體大放異彩的應用元年。

本文系觀察者網獨家稿件，未經授權，不得轉載。