Anthropic的新AI工具分析你的屏幕並代表你行動 - 彭博社

Shirin Ghaffary

2024-10-22

智能體logo在智能手機上。

攝影師：Gabby Jones/Bloomberg人工智能初創公司Anthropic正在發佈一種新工具，可以理解用户計算機屏幕上發生的事情，併為他們完成一系列在線任務——這是科技公司從提供簡潔回應的聊天機器人擴展到可以代表個人行動的所謂AI代理的最新例子。這種新功能稱為“計算機使用”，可以解釋用户在計算機上看到的內容，並在獲得許可的情況下，通過瀏覽網頁、點擊按鈕和輸入文本為他們採取行動，Anthropic在週二表示。該公司在最近幾周與有限的企業客户測試該服務後，正在向使用其Claude技術的開發者發佈測試版。越來越多的AI公司正在投資構建能夠在最少人類監督下為用户處理任務的代理，試圖實現人工智能在個人和職業生活中顯著提高生產力的承諾。週一，微軟公司推出了一套旨在為員工發送電子郵件和管理記錄的代理工具。Salesforce Inc.宣傳了其在上個月Dreamforce活動中為客户服務推出的企業代理應用。Anthropic在代理工具的使用上採取了與許多其他公司不同的方法。它的技術可以即時處理用户計算機屏幕上發生的事情，而不是在後台與各種應用程序集成。該公司表示，這種方法創造了更直觀的體驗。“這將是第一個能夠像人們一樣使用計算機的模型，”Anthropic的聯合創始人兼首席科學官Jared Kaplan在接受彭博新聞採訪時表示。

在一段預先錄製的演示中，一名Anthropic員工使用該工具來確定帶朋友早晨徒步旅行的後勤安排，欣賞金門大橋的美景。Anthropic的AI代理能夠在谷歌上搜索徒步旅行路線，繪製路線圖，檢查日出時間，併發送包含穿着建議的日曆邀請——這一切都不需要人類輸入，除了最初的提示。Anthropic將自己定位為一家注重安全的AI公司，但這一新工具可能會引發更多的審查。能夠訪問用户屏幕活動的技術帶來了更高的安全和隱私擔憂。例如，當微軟推出其AI驅動的“Recall”功能，記錄用户在計算機上所做的一切時，因擔心軟件可能容易受到黑客攻擊而引發了反彈。最終，它重新推出了該產品並進行了安全升級。

使用AI代理也提高了任何錯誤的風險。AI系統在聊天機器人屏幕中產生幻覺響應是一回事；而在代表某人在線或離線行動時犯錯則是另一回事。

Kaplan表示，Anthropic已經對該功能進行了紅隊測試，以發現漏洞，並設定了該工具被允許執行的某些行動的保護措施。例如，該公司表示，用户將被“引導遠離”諸如在社交媒體上互動、創建賬户和與政府網站互動等活動。此外，開發人員可以設置限制，以規定該工具何時可以訪問用户的計算機。他們還可以在過程中的各個步驟中增加人類監督。儘管該工具可以處理計算機上的多種任務，但公司在一篇博客文章中表示，它在一些人類可以輕鬆完成的操作上仍然存在困難，例如滾動、拖動和縮放。

“這個模型並不完美。它仍然會犯錯誤，”卡普蘭説。“它絕對還不是完全可靠的。我們希望慢慢與開發者進行實驗，瞭解反饋和風險，以便我們做好準備，並在發現潛在濫用的領域改進安全培訓。”

公司表示，早期的合作伙伴包括Canva、Asana和Replit，已經在圖形設計、項目管理和編碼等領域使用該工具。卡普蘭説，未來，Anthropic可能會將一些計算機使用功能整合到其消費產品中。

作為週二發佈的一部分，Anthropic推出了一個新的升級版Claude 3.5 Sonnet模型，在編碼和推理等領域有所改進。該公司還推出了一個更強大的、更便宜、更快的模型Claude 3.5 Haiku。