吳恩達最新演講:AI Agent工作流的未來_風聞
乌鸦智能说-1小时前
吳恩達教授曾任谷歌大腦項目的創始人,並開創性地提出了深度學習概念,推動了人工智能的發展。今天分享的是,吳恩達教授在紅杉資本的人工智能峯會(AI Ascent)上發表了一次演講。
在本次演講中,他談到了AI agent工作流多步迭代的模式與基於人工評估基準測試的效果分析,還談到了自己對於AI agent設計模式的四種分類,包括檢查、工具使用、規劃、多智能體協作。
與此同時,吳恩達還分享了其對AI agent的未來發展潛力的展望。在他看來,通過代理工作流程,人工智能能夠勝任的任務種類今年將會大幅擴展。此外,快速 token 生成也很重要,即使使用質量略低但速度更快的語言模型,通過更多輪次的迭代,也可能比使用更高質量但速度較慢的模型獲得更好的結果。
目錄如下:
01 AI agent工作流的模式與效果
02 四種AI agent設計模式
03 總結
/ 01 / AI agent工作流的模式與效果
我很高興與大家分享我對人工智能代理的看法,這是一個令人興奮的新興趨勢,所有從事人工智能的人都應該關注。
目前,我們使用大語言模型的主要方式是一種非代理工作流程,即您輸入一個提示,模型就生成一個回答。這有點像讓一個人坐下來一次性從頭到尾編寫一篇文章,而不允許使用退格鍵,儘管這樣做很難,但大語言模型的表現出奇地出色。
相比之下,代理工作流程看起來是這樣的:首先,讓人工智能大語言模型寫一個文章大綱,如果需要進行網絡研究就先做研究,然後寫出第一稿,然後閲讀並思考需要修訂的部分,再修改這一稿,如此循環往復、迭代多次。很多人沒有意識到,這種做法可以帶來顯著的改進效果。我自己在使用這些代理工作流程時也感到非常驚訝,它們工作得如此之好。
我的團隊分析了一個叫做"人工評估基準測試"的編碼基準數據,它包含諸如"給定一個非空整數列表,返回所有偶數位置元素的和"之類的編碼問題。現有的做法是使用零樣本提示,即直接讓人工智能編寫代碼並運行,但沒有人是這樣編碼的。
研究發現,GPT-3.5使用零樣本提示時只有48%的正確率,GPT-4提高到了67%。**但如果在GPT-3.5上使用一個代理工作流程,它的表現實際上比GPT-4還要好。如果在GPT-4上使用代理工作流程,它的表現也非常出色。**這意味着採用代理工作流程對於構建應用程序至關重要。
目前,行業內有很多關於代理的討論和報告,但我想更具體地與大家分享一下我在代理設計模式方面的一些觀察。儘管這個領域還很混亂,但我嘗試對正在發生的事情進行了分類。
/ 02 / 四種AI agent設計模式
1.反思(reflection)
首先是檢查(reflection),我認為這是一種大家都應該使用的工具,它非常有效。**你可以將之前生成的代碼再次輸入給語言模型,並提示它"仔細檢查這段代碼的正確性、效率和結構,並提出評論。“同一個生成代碼的模型可能會發現漏洞並提出改進意見。接收反饋後,你可以再次提示它,它可能會生成更好的代碼版本。**我覺得這是一種相當可靠的技術。
對於那些想更多瞭解這些技術的人,在每張幻燈片的底部我都列出了一些推薦閲讀資料,希望能提供更多參考。
我之前描述的是一個單一的編碼代理,你提示它與自己進行交互。**這個想法的一種自然延伸是,不是單一的代碼代理,而是有兩個代理,一個是編碼代理,另一個是評審代理。**它們可以基於同一個大型語言模型,但你以不同的方式對它們進行提示,對一個説"你是專業編碼者,編寫代碼”,對另一個説"你是專業代碼評審員,評審這段代碼"。這種工作流程實際上非常容易實現,我認為它是一種通用技術,可以為很多工作流程帶來顯著的大型語言模型性能提升。
2.工具使用(Tool use)
第二個設計模式是工具使用。我們已經看到,語言模型可以搜索網頁、生成和運行代碼等,使用各種工具來分析、收集信息、執行操作以及提高生產效率。
如果你實際查看相關文獻,你會發現早期很多工具使用研究似乎都源於視覺領域,因為在GPT-4和Llama等模型出現之前,大型語言模型對圖像都是盲目的,所以唯一的選擇就是讓大型語言模型生成一個可以操作圖像的函數,比如生成圖像或進行目標檢測之類的。這就是工具使用,它擴展了大型語言模型的能力。
3.規劃(Planning)
第三個是規劃。如果您還沒有嘗試過規劃算法,那可能會像我第一次看到 ChatGPT 時那樣,體會到人工智能的驚人能力。我曾運行過現場演示,當出現失敗時,人工智能代理能自主規避失敗繼續運行。
我從一篇論文中摘錄了一個例子:比如你給出一張男孩的圖像,並説根據説明生成一張女孩的新圖像。現在我們有了這樣的人工智能代理:它可以確定第一步是確定男孩的姿勢,然後可能在Hugging Face上找到一個合適的模型來提取這個姿勢,接下來要找到一個姿勢圖像模型來合成一個女孩的圖像,然後使用圖像到文本的模型,最後使用語音合成。
我不想説它們已經能夠可靠地工作,有時候還是有些不穩定,但當它們工作時,效果確實令人驚歎。再加上使用代理循環,有時你還可以從早期的失敗中恢復過來。所以對於一些研究工作,我已經開始使用研究代理,比如説我不想自己花很長時間在谷歌上搜索,而是把任務交給研究代理,過幾分鐘再回來看它都找到了什麼,有時它管用,有時不管用,但它已經成為了我個人工作流程的一部分。
4.多智能體協作(Multiagent collaboration)
第四個設計模式是多智能體協作。比如開源項目 ChatDev,你可以提示一個語言模型扮演不同的角色,比如公司CEO、設計師、產品經理或測試員,這些"代理"會相互協作,共同開發遊戲等複雜程序。雖然不是每次都能成功,但有時確實令人印象深刻。研究還發現,讓不同的人工智能代理進行辯論,也能提高它們的表現。
/ 03 / 總結
總之,我認為採用這些代理推理設計模式能夠顯著提高我們的工作效率。我預計,通過代理工作流程,人工智能能夠勝任的任務種類今年將會大幅擴展。
不過我們需要改變一種習慣,那就是習慣了在提示語言模型後立即獲得響應。在代理工作流程中,我們需要學會能夠耐心等待幾分鐘甚至幾個小時,才能得到響應,就像我們交代任務給人時需要適當地等待一段時間再進行檢查一樣。
**此外,快速生成token也很重要。**因為這些迭代式工作流程需要語言模型快速生成token供自己閲讀。即使使用質量略低但速度更快的語言模型,通過更多輪次的迭代,也可能比使用更高質量但速度較慢的模型獲得更好的結果。
我期待着 Claude 5、Claude 4、GPT-5和 Gemini 2.0 等新模型的到來。如果你期待在最新模型上通過零樣本獲得最佳表現,採用這種代理推理方法在早期模型上有可能達到相當的性能。
總的來説,通往人工通用智能的道路就像一條漫長的旅程,而代理工作流程有望成為通往目的地的一小步。謝謝大家!
