首個國產“手機智能體”問世,智譜補位Manus
陈济深

(文/陳濟深 編輯/張廣凱)
8月20日,智譜在iOS安卓,PC三端同步推出AutoGLM 2.0,並首次面向公眾全面開放,無需邀請碼即可使用。

作為一款純國產智能體,AutoGLM的發佈也給了中國用户一個在Manus退出中國後可以合規便利體驗智能體的選擇。
不同於Manus等網頁端原生的智能體產品,智譜AutoGLM 2.0作為全球首個手機通用Agent,被定位為“執行型助手”。相比目前主流AI產品和智能體助手多停留在“對話”層面,只能實現信息查詢和整理回答,AutoGLM則實現了質的飛躍——它不再只是“説”,而是真正能夠“做”。
3月AutoGLM1.0發佈時,AI儘管也可以操作手機,但是在AI做事期間人不能切屏,不能打斷,只能看着乾瞪眼。本次AutoGLM2.0則給每個用户預製了一台虛擬手機和電腦,直接解決了AI和人搶屏幕的操作痛點,讓AI從只能在人眼皮子底下幹活變成了“你幹你的,我幹我的”的異步處理模式。
在實際測試中,儘管部分功能的執行效率和優化程度依然有待提升,但目前AutoGLM已經可以較好地執行包括購物、訂餐、買機票、自動寫文案等大眾場景,智能體不再是極客們的工具,開始步入了更加大眾的羣體。
作為全球首個通用手機智能體,AutoGLM的發佈也代表着AI從能説會道到真能幹活的技術躍遷,而AI不再需要和人類爭搶手機開啓“自動駕駛模式”,不僅有效地解放了真人諸多日常繁瑣操作的時間,能夠24小時執行任務的數字“牛馬”也直接打開了Agent發展的無數可能性。
用嘴真能操作手機
Agent毫無疑問是AI行業2025年最炙手可熱的關鍵詞,Manus的出現一度讓Linux底座+調用外部API“套殼”成為了行業的主流選擇。但隨着Claude加緊對中國的限制,Manus“跑路”新加坡退出中國後,“套殼”智能體模式在中國顯然難以為繼。
同時,中國用户側重移動端的特點也和傳統Agent重PC端輕移動端的思路有所衝突,對於AI智能體到底應該是什麼產品形態,顯然需要更加了解中國用户的中國公司去探索開發。
智譜總裁張鵬對觀察者網表示:“早在2023年底,(智譜)就決定一定要讓Agent有能力去使用手機,有能力去使用電腦,有能力去使用設備。”
他表示,一方面目前互聯網上,很多基礎設施都隱藏在各種網站和數據庫中,如果不採用類似人工點擊瀏覽器登錄的模式,也沒有辦法充分發揮個人所擁有的生產資料和數據帶給你的價值。
另一方面,如果AI不能自己操作設備,那麼很多定時任務就需要人工點擊開始,而不能類似鬧鐘一般自動執行,也難言智能。
相比傳統的問答式和信息輔助式的手機智能助手主要通過AI輸出文本答案讓用户自己根據指示操作,本次新發布的AutoGLM內置了智譜GLM4.5模型,不僅全部國產還實現了端到端操作設備的能力,讓AI真的長出了“手”,替用户自動操作設備。
在我們的測試任務中,諸如在趙露思微博超話打卡,點開B站熱門視頻發佈彈幕,美團下單奶茶等單一任務,AutoGLM都能迅速在無需干預的情況下一氣呵成,而傳統多模態模型的任務更是信手拈來。

AI生成莫奈風格雨中路人圖
面對稍微複雜一點的單一APP全鏈路操作,AutoGLM也能勝任。
在向AI提出“搜索知乎今日最熱門的話題,總結一下高贊評論的核心觀點,然後關注點贊數前三的博主”的需求後,AutoGLM直接登陸了知乎並看到了今日最熱門的話題《黑神話:鍾馗》的官宣,隨後整理了高贊內容的核心並順利的關注點讚了前三的答主。

而隨着任務進一步複雜涉及長鏈路,多應用交互的行為,AutoGLM也能做到常用場景下基礎操作層面的遊刃有餘。
再給出“播放QQ音樂,搜索今日熱門歌曲播放,然後搜索B站東方明珠大戰蜜雪冰城熱門視頻播放並一鍵三連”的提示後,AutoGLM成功播放了排行榜第一的熱門歌曲時代少年團“I Like U Like”,然後打開了B站搜索並播放了“在上海隨便喝蜜雪冰城,故鄉會保護你”的視頻

值得注意的是,AutoGLM並沒有在搜索結果中選擇標題中明確帶有東方明珠和蜜雪冰城字樣的內容,而是似乎理解了這個主題,選擇了播放量最高的相關內容。
不過在測試過程中,在支付、發佈帖子等環節,依然需要人類接管確認,我們不止一次遇到在自動發佈文案時觸發風控/系統連接限制等情況無法發帖的情況。
而想要使用雲手機和雲電腦,用户需要提前在虛擬設備上登錄賬號。對於用户安全和隱私問題,智譜表示,其雲服務與阿里雲合作,智譜並不會讀取用户的登錄信息。但是如何贏得用户的信任顯然並不是一個簡單的問題,也不是智譜一家企業能夠自行解決的痛點。本次智譜沒有在默認程序中內置微信這個國民應用的理由,恐怕也是出於這方面的用户顧慮。
在初步體驗後,可以發現AutoGLM除了讓普通用户也能體驗到AI智能體的便捷外,它的出現也顯著的幫助了另一個很容易被忽視的羣體——中老年用户。
互聯網時代,隨着數字化和智能化的發展,無論是銀行,醫院,還是政務類業務,在線或者掃碼辦理成為了司空見慣的日常,而很多APP的交互設計對於老年人羣體來説難度顯而易見。
另一方面,中老年羣體在自主學習如何下載APP時,也很容易在安裝各類APP軟件的過程中無意間下載廣告乃至詐騙軟件而不自知。
AutoGLM的出現給出了一個可行的解決方案,讓人適應APP轉變成了AI代人操作APP,用嘴操作手機,讓AI來實現萬物互聯的願景,方便各類人羣使用。
Agent“雲端執行”的戰略拐點
相比Manus等Agent採用Linux+VSCode的配置範式,智譜本次採用了雲端手機+電腦的技術新範式。
對於為何選擇雲端執行的戰略,智譜總裁張鵬分享了AutoGLM的「3A 原則」:
Around-the-clock(全時),是指AI 必須能夠 24 小時待命並持續執行任務。無論用户是在工作、睡覺還是娛樂,AI 都應在雲端持續產出價值。
Autonomy without interference(自運轉、零干擾),官方也稱之為 Asynchronous (異步),其核心是 Agent 在雲端設備的獨立運行,不佔用用户的本地屏幕和算力。
Affinity(全域連接),則意味着Agent 的能力不能侷限於瀏覽器對話框,必須能連接手機、電腦、手錶、眼鏡等多種設備與服務,打通數字世界與物理世界。這三大原則,共同構成了 AutoGLM 對一個成熟 Agent 形態的定義,也解釋了其當前產品架構。
而為了實現這個願景,選擇雲手機和電腦不僅能解決用户和AI搶屏幕的痛點,也解決了軟件適配的難度,成為了順理成章的選擇。
AutoGLM技術負責人、算法研究員劉瀟對觀察者網解釋道:“如果智能體為滿足用户需求諸如點外賣,發微信都需要搶佔手機屏幕,AI在做事時真人就不能插手,這種讓人類二選一的情況既不智能也不合理,因此通過本地調用APP搶佔用户屏幕並不是一個合適的解決方案。”
搶屏幕帶來的一個副作用便是執行中斷的可能,鎖屏、網絡波動、切換應用等任何用户行為都可能中斷 Agent 的長任務流。AI難以在用户非關注時段(如睡眠、娛樂時)持續工作,其價值被大打折扣。
採用雲手機/電腦的另一個動機則在於減少適配難度,尤其是安卓設備的適配難度,儘管每家基於安卓廠商的系統看着大差不差,實際上底層可謂大相徑庭,在這個系統生態下,自家的軟件能在哪個系統跑已經屬於玄學範疇,存在巨大的適配成本門檻。
具體到技術細節,過去,許多 Agent 的訓練依賴於監督微調(SFT),即學習人類專家的操作軌跡。這種方法的弊端是「泛化能力差」——AI 只會模仿它見過的操作,對於未見過的場景或界面改動,往往束手無策。
為了讓 Agent 在複雜多變的真實環境中(數千個併發的手機、電腦、瀏覽器環境)真正具備完成任務的能力,AutoGLM 團隊選擇了端到端在線強化學習的技術路線。
其核心思想是,在經過少量專家數據「冷啓動」後,讓模型在數千個並行的真實雲環境中,像人類一樣去「試錯」。系統不再告訴模型「下一步該點哪裏」,而是隻在任務最終完成時給予一個「成功」的獎勵信號(Reward)。模型必須自己探索出最優的決策路徑。
從底層開始的原生設計,使得 AutoGLM 在多個公開基準測試中表現出色。比如,在考察電腦操作能力的 OSWorld Benchmark 中,AutoGLM 獲得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。
而在跑分之外,智譜模型即Agent的模式也帶來了巨大的成本優化空間。
傳統基於第三方大模型API構建的Agent,單次複雜任務(如 Deep Research)的成本高達 3-5 美元。而 AutoGLM 藉助自研模型和一體化架構,將包含模型調用和虛擬機資源的單次任務成本,壓縮到了約 0.2 美元(約 1.5 元人民幣)。這已經與谷歌單次搜索約 0.02 美元的成本相差不到一個數量級。
這種數量級的成本降低,讓智譜有底氣在此次發佈中不用邀請碼,直接向所有 C 端用户開放。
智能體背後的生態佈局
除了在手機端佈局,智譜對於AutoGLM的定位超越了單一的效率工具,開始構建一個連接多設備和服務的生態,這也是其將AutoGLM從智譜清言中獨立出來單獨做一個APP的理由之一。
智譜透露,除了已經展示的跨應用操作,AutoGLM的雲電腦目標是支持 Office、Photoshop 等更專業的生產力工具。
而在後續的更新中AutoGLM將添加定時任務功能,即AI從被動接受命令執行響應轉變成半主動規劃,從每天早上根據自己的消費記錄買一杯合適口味的咖啡,到辦公室自動總結未讀郵件,也將從夢想走進現實。
而對智能硬件生態的賦能才是智譜真正的殺手鐧。
目前的智能設備中,存在明顯的算力、續航和交互的不可能三角,如蘋果的Vision Pro存在續航短板,Meta Quest 2則存在顯著的算力短板,蘋果即將發佈的桌面機器人更是在預告公佈後因為糟糕的交互能力飽受詬病。
對於很多智能設備,堆大電池和複雜系統的解決方案並不合適,如何在性能合格情況下控制成本也成為了制約硬件廠商的痛點。
智譜AutoGLM對此提出的一個解法——讓這些端側硬件「輕量化」,只負責感知和發起指令,而將複雜的應用操作和任務執行全部交由雲端的Agent完成。
智譜對觀察者網展示了若干案例,如體重秤接入智能體後,在檢測體重超標後自動下單減肥代餐,而氣體傳感器在接入了智能體後,一旦檢測到鞋櫃發愁就會下單除臭腳墊。

打印機接入Agent實現缺墨自動購買
這條物理傳感器—雲端 Agent—現實世界服務的鏈路,打開了智能體實現對物理世界的連接和操作的可能性。
對於AI和智能體發展的未來時,AutoGLM技術負責人劉瀟提出了一個關於 AGI(通用人工智能)的階段性定義,他稱之為“AGI 的下限”——當一個 Agent 能自主穩定地運行一整天(24小時),作為你的同事或秘書,協同完成工作與生活任務,使你的綜合效率提升超過 2 倍時,AGI 的曙光初現。
AutoGLM 的這次進化,或許離這個下限還有距離。它仍處於早期形態,對指令的理解還很初級,也存在一些Bug。但通過構建雲端分身這一核心架構,它確實開始在為Agent的獨立行走鋪平道路。
從同步操作轉變為異步委託,或許是人機協作範式的轉變的開始,未來的個人競爭力可能取決於自身能力+N 個 AI 智能體模式,用户通過下達指令,讓多個 AI 並行完成任務,從而根本性地改變個人處理日常與工作事務的方式。
而當智譜與一些手機廠商達成更系統級的合作後,這個Agent的想象空間將徹底打開,成為我們真正期待的數字助理。