AI智能體元年真來了?這次中國與OpenAI站在同一起跑線
连政guanchazhewanxgun

才剛剛1月,OpenAI就正式宣佈進軍AI智能體領域,中國公司智譜也推出新一版的GLM-PC 1.1。從回答問題到執行任務,AI智能體元年真的來了?
當地時間1月23日,美國人工智能公司OpenAI正式推出首款AI智能體Operator(意為操作員),這是OpenAI的首個AI智能體。Operator號稱能夠模擬人類操作瀏覽器完成購物、訂餐、論文整理等操作,通過融合視覺識別與高級推理的CUA模型實現複雜步驟規劃。

具體的工作流程上,Operator會根據需求捕獲屏幕畫面,再將其添加到模型上下文,並通過GPT-4o的視覺能力準確理解界面內容,再依靠強化學習的推理能力制定下一步計劃,最後使用虛擬鼠標和鍵盤,精確執行點擊、滾動或輸入的界面操作,直到任務完成或需要用户輸入。
OpenAI創始人奧特曼介紹稱,目前Operator將以每月200美元的訂閲費,率先面向美國ChatGPT Pro用户開放測試。
而就在同一天,中國公司智譜AI也對外發布了去年12月公佈的AI智能體GLM-PC 1.0的升級版 —— GLM-PC 1.1,本次更新優化多種任務流程,甚至被業內人士稱為“2.0也不為過”。智譜的 GLM-PC 不僅能自動處理文件、發送定製化微信內容,還通過借鑑人類的左右腦分工,以“左腦邏輯+右腦感知”的雙引擎架構實現多模態交互,甚至生成代碼與視頻內容,展現超越文本生成的操作層突破。
其中,智譜公眾號文章還實機演示了在淘寶中一鍵加購辣條等產品、截取小紅書春節檔圖片轉發微信羣聊並詢問觀看意願、以及給這個羣聊的成員每人單獨小窗發送一段2025年新春祝福語和AI自動生成的蛇年主題圖片。

新春祝福甚至可以按照每人名字定製發送。智譜AI
智譜介紹,新版 GLM-PC背後是智譜自主研發的多模態模型 CogAgent 與代碼模型 CodeGeex 的深度融合。以代碼形式指揮工作流程和工具調用,並強化了深度思考模式下的規劃、推理、反思能力,從而能夠穩定高效地應對複雜場景與任務。實際執行時,GLM-PC 能感知多層環境反饋,協助反思,以有效自我糾正與優化。
當前,通用人工智能技術已進入OpenAI所分類的L3級(智能體)階段,核心競爭圍繞各家企業模型的自主操作能力展開。
除了OpenAI和智譜,谷歌、微軟、Anthropic以及國內等眾多AI公司也都相繼推出類似產品。上海人工智能產業研究院院長朱兆穎此前就曾預測,AI智能體將是生成式AI的下一個前沿,預計2025年市場規模將達100億美元以上,2025年將成為AI智能體大放異彩的應用元年。
本文系觀察者網獨家稿件,未經授權,不得轉載。