LangChain創始人: AI下一次浪潮將由AI Agent主導_風聞
乌鸦智能说-42分钟前
日前,人工智能初創公司LangChain的創始人Harrison Chase在一次由來自紅杉資本的Sonya Huang及Pat Grady主持的播客訪談中,就智能體(Agents)的發展現狀、挑戰及前景,闡述了一系列觀點和看法。
Harrison表示,智能體指的是讓大型語言模型在應用程序的控制流中進行決策。他預計,下一波人工智能浪潮可能會由智能體主導,整個行業正從輔助模式向智能體模式轉變。儘管第一代自主智能體架構如AutoGPT曾引起極大關注,但在實用性方面仍有不足,難以滿足企業級需求。
針對這一問題,Harrison認為通用的認知架構(如規劃、反思)和定製的領域特定認知架構並存發展是解決之道。認知架構就像是大型語言模型應用程序的系統架構。這些認知架構有望幫助解決早期智能體在規劃、完成任務、判斷任務完成情況等方面的困難。其中,規劃和反思被視為當前較為流行的通用認知架構。
展望未來,Harrison認為隨着智能體的發展壯大,它們可以自動化大量重複性工作,從而讓人類專注於更具創造性或更高效的工作。目前來看,客户支持和編程是智能體相對較為成熟的應用領域。
以下為本期內容目錄:
01 什麼是智能體
02 智能體中的認知架構
03 智能體發展的未來想象
04 仍待解決的現實問題
/ 01 / 什麼是智能體?
Sonya Huang:智能體(Agents)是目前大家都非常感興趣的話題。自從大語言模型(LLMs)浪潮開始以來,你一直處於智能體構建的核心位置。為了讓大家更好地理解,什麼是智能體呢?
Harrison Chase:我認為定義智能體其實有點棘手,每個人可能有不同的定義,畢竟這仍然是大語言模型和智能體相關事物的早期階段。
在我看來,智能體就是讓大語言模型在應用程序的控制流中進行決策。如果你有一個更傳統的檢索增強生成鏈(RAG鏈),步驟通常是事先確定的。首先,你可能會生成一個搜索查詢,然後檢索一些文檔,接着生成一個答案,最後返回給用户。這是一個非常固定的事件序列。
當我想到開始變得具備智能體特性的東西時,它是指你將大語言模型置於中心位置,讓它決定具體要做什麼。所以也許有時候它會查找一個搜索查詢,其他時候它可能不會查找,只是直接回應用户。也許它會查找一個搜索查詢,獲取結果,再查找另一個搜索查詢,再查找兩個搜索查詢,然後再回應。所以你有了大語言模型來決定控制流。
我認為還有一些其他的流行詞彙也與此相關,比如工具使用通常與智能體相關聯,我認為這很合理,因為當你有一個大語言模型來決定做什麼時,它主要通過工具使用來決定。所以我認為這兩者是相輔相成的。記憶也是通常與智能體相關的一個方面,我認為這也很有道理,因為當大語言模型決定做什麼時,它需要記住之前做了什麼。所以工具使用和記憶是鬆散關聯的。但對我來説,當我想到智能體時,它就是讓大語言模型決定應用程序的控制流。
Pat Grady:Harrison,從你剛才所説的很多內容來看,都是關於決策的。而我一直認為智能體是關於行動的。這兩者是否密不可分?智能體行為更多是關於決策還是行動?你怎麼看這個問題?
Harrison Chase:我認為這兩者是相輔相成的。我們看到智能體做的很多事情都是決定採取什麼行動。而採取行動的最大難點在於決定採取什麼正確的行動。所以我確實認為解決了一個問題自然會引出另一個問題。在你決定採取的行動之後,通常會有一個圍繞大語言模型的系統,然後去執行該行動並將其反饋給智能體。所以,我認為它們確實是相輔相成的。
Sonya Huang:那麼,Harrison,看來智能體和鏈條(Chain)之間的主要區別在於大型語言模型本身在決定下一步採取哪些步驟、執行哪些操作,而不是像鏈條那樣事先進行編碼。這種區分智能體的方式是否公正?
Harrison Chase:是的,我認為這是正確的。而且還有不同程度的漸變。例如,作為一個極端例子,你可以有一個基本上決定走哪條路徑的路由器。所以你的鏈中可能只有一個分類步驟。所以LLM仍然在決定做什麼,但這是一個非常簡單的決策方式。另一個極端是完全自主的智能體。這中間有如同光譜一樣的程度變化。所以我説這在很大程度上是正確的,儘管正如LLM領域中的大多數事情一樣,這裏有很多細微差別和灰色地帶。
Sonya Huang:明白了。所以有一個從控制到完全自主決策和邏輯的光譜,其他的都在智能體的光譜上。很有趣。你認為LangChain在智能體生態系統中扮演什麼角色?
Harrison Chase:我認為我們目前的重點是讓人們能夠輕鬆地創建位於這個光譜中間的東西。由於各種原因,我們看到這是目前構建智能體的最佳位置。所以我們看到一些更完全自主的東西引起了很多興趣,並迅速推出了原型,這些完全自主的東西有很多好處,實際上相對簡單構建,但我們也看到它們經常偏離軌道,人們想要更受約束但比鏈更靈活和強大的東西。因此,最近我們關注的很多是成為這個協調層,支持這些智能體的創建,特別是這些位於鏈和自主智能體之間的東西。我可以詳細解釋我們在這方面具體做了什麼,但總體而言,我們想成為這個協調框架的一部分。
Sonya Huang:明白了。所以有鏈,有自主智能體,中間有一個光譜。而你們的優勢點是中間部分,使人們能夠創建處於中間狀態的智能體。
Harrison Chase:顯然,這隨着時間的推移發生了變化。回顧LangChain的演變是很有趣的。當LangChain首次推出時,它實際上是鏈的組合,然後我們有一個類,這個智能體執行類,基本上是這個自主智能體的東西。我們開始在這個類中添加更多的控制,最終我們意識到人們想要比我們通過那個類提供的更多的靈活性和控制。
所以,最近我們在LangGraph上投入了很多精力,這是一種LangChain的擴展,專門針對可定製的智能體,位於中間位置。因此,我們的重點隨着領域的發展而演變。
Sonya Huang:我想再問一個為討論做鋪墊的問題。我們核心觀點之一是,下一波浪潮的人工智能將由智能體主導,並且整個行業正從副駕駛(Copilot)向智能體過渡。您是否認同這種觀點?為什麼呢?
Harrison Chase:總體而言,我同意您的觀點。之所以如此令我興奮的原因在於,副駕駛仍然依賴於人類參與整個循環。因此,外部系統可以完成的工作量在某種程度上存在上限。從這個意義上來説,副駕駛的功能有些侷限性。
我確實認為,在正確的用户體驗和人類-智能體交互模式方面還存在一些非常有趣的問題需要思考,不過我認為這些互動模式應該更像是智能體執行操作,然後偶爾向您確認,而不是像副駕駛那樣一直處於循環之中。我只是認為,讓智能體完成更多任務可以帶來更大的效力和槓桿作用,這聽起來似乎有些矛盾,因為放任智能體自主執行操作的越多,它出錯或偏離軌道的風險就越大。因此,我認為找到正確的平衡將非常有趣。
Sonya Huang:我記得在2023年3月左右,有一些自主智能體真正吸引了大家的想象力。Baby AGI和其他GPT項目,這些在推特上引起了極大的興趣。但是,我覺得那第一代的智能體架構並沒有完全達到人們的預期。你認為這是為什麼?你認為我們現在處於智能體炒作週期的哪個階段?
Harrison Chase:是的,我認為可以先討論一下智能體炒作週期。我認為AutoGPT肯定是一個起點。它可能是有史以來最受歡迎的GitHub項目之一,所以它代表了炒作週期的一個高峯。我會説,這個高峯始於 2023 年春季,差不多持續到 2023 年夏季。然後從夏末到2024年初,我個人感覺有點像是一個低谷或下降趨勢。不過,從 2024 年開始,我們逐漸看到一些更貼近現實的案例上線。舉個例子,我們在LangChain與Elastic合作,他們有一個在生產中的Elastic助手和智能體。我們還看到Klarna的客户支持機器人上線並獲得了很多關注。Devin和Sierra這些公司也開始在智能體領域嶄露頭角。
關於為什麼AutoGPT風格的架構沒有成功,我覺得它非常通用且不受約束,這使得它非常令人興奮並激發了人們的想象力。**但是,從實用性角度來看,對於那些希望通過自動化來提供即時業務價值的人們而言,實際上他們更希望智能體執行一些非常具體化的任務。他們還希望智能體遵循更多規則,或者按照他們期望的方式去完成任務。因此,在實踐中,我們看到這些智能體更多地採用了我們稱之為的自定義認知架構,其中預先定義了智能體通常要執行的操作方式。**當然,這裏也存在一定的靈活性,否則人們可以直接編寫代碼來實現這些功能。不過,這是一種非常定向的思維方式,這也是我們今天看到的大部分智能體和助理所遵循的模式。這需要更多的工程工作,更多地去嘗試並觀察哪些方法有效,哪些方法無效,這實際上更難做到。因此,這正是為什麼這類智能體在一年之前還不存在的原因。
/ 02 / 智能體中的認知架構
Sonya Huang:你能解釋一下什麼是認知架構嗎?有沒有一個好的思維框架讓我們理解它們?
Harrison Chase:**我認為認知架構就像是大型語言模型應用程序的系統架構。**如果您正在構建一個位置查找應用程序,其中會用到一些大型語言模型。您打算用這些大型語言模型做什麼?是讓它們僅僅生成最終答案嗎?或者您的架構更像是循環?這些都屬於認知架構的不同變體,認知架構只是用一種花哨的方式來描述從用户輸入到用户輸出的信息流、數據流以及大型語言模型調用過程。
我們越來越多地看到,特別是當人們嘗試將智能體真正投入生產時,這種信息流會針對他們的應用程序及其領域進行定製。他們可能一開始就想做一些特定的檢查,之後可能會有三個特定步驟。然後,每個步驟可能都包含一個循環返回的選項,或者擁有兩個獨立的子步驟。因此,如果您將它想象成一個正在繪製的圖形,我們會看到越來越多的定製圖形,人們試圖約束和引導智能體沿着他們的應用程序執行操作。
我之所以稱之為認知架構,是因為大型語言模型的力量在於推理和思考應該做什麼。換言之,我可能擁有一個關於如何完成任務的認知心智模型。我只是將這種心智模型編碼成某種軟件系統,某種架構。
Pat Grady:你認為這是世界的發展方向嗎?因為我從你那裏聽到兩點:一是非常定製化,二是相當原始,很多方式是硬編碼的。你認為這是我們前進的方向,還是一種權宜之計,在某個時候會出現更優雅的架構或一系列默認的參考架構?
Harrison Chase:這是一個很好的問題,也是我花了很多時間思考的問題。你可以在一個極端上爭論,如果模型在規劃方面變得非常好和可靠,那麼你可能擁有的最好架構就是一個循環,調用LLM,決定做什麼,執行動作,然後再循環。所有這些關於我希望模型如何行動的約束,我只是把它們放在提示中,模型會明確地遵循。
**我確實認為模型在規劃和推理方面會變得更好。但我不認為它們會成為處理所有事情的最佳方式。**有幾個原因:
一是效率問題。如果你知道總是想在步驟B之後做步驟A,你可以直接把它們按順序排列。二是可靠性問題。這些事情不是確定性的,特別是在企業環境中,你可能希望有更多的保證簡單但通用的架構就像一個在循環中運行的簡單認知架構。我們在生產中看到的是定製和複雜的認知架構。我認為還有一個不同的方向,那就是複雜但通用的認知架構,比如非常複雜的規劃步驟和反思循環或思維樹。我認為這一類架構可能會隨着時間推移逐漸消失,因為我認為很多通用的規劃和反思將被訓練到模型中。但仍會有大量非通用的規劃、反思和控制循環永遠不會出現在模型中。所以我對這兩個方向持樂觀態度。
Sonya Huang:我想可以這樣理解:大語言模型進行非常通用的智能體推理,但你需要領域特定的推理。這是無法在一個通用模型中構建的。
Harrison Chase:完全正確。**我認為定製認知架構的一個方法是把規劃和責任從大語言模型轉移到人類身上。一些規劃將越來越多地轉移到模型和提示中。**但我認為,很多任務在某些規劃方面實際上非常複雜,所以在我們得到能夠可靠地處理這些任務的系統之前,還需要一段時間。
Sonya Huang:你之前和我分享過一個貝佐斯的觀點,就是要專注於讓你的啤酒更好喝的事情。他指的是20世紀初,許多釀酒廠試圖自己發電,而沒有專注於釀酒。今天很多公司也在思考類似的問題:你認為掌控自己的認知架構真的能讓你的“啤酒”更好喝嗎,還是你認為應該把控制權交給模型,專注於構建UI和產品?
Harrison Chase:我認為這可能取決於你構建的認知架構類型。回到之前的討論,如果你構建的是一個通用的認知架構,我不認為這會讓你的“啤酒”更好喝。我認為模型提供商會致力於這些通用的規劃。但如果你的認知架構基本上是在編纂你們支持團隊的思維方式、內部業務流程或是你們開發特定類型代碼或應用程序的最佳方式,那麼這絕對會讓你的“啤酒”更好喝。特別是在我們朝着這些應用程序真正完成工作的方向前進時,那些定製的業務邏輯或思維模型非常重要。當然,用户體驗(UX)和用户界面(UI)以及分發也非常重要,但我會在通用和定製之間做出區分。
/ 03 / 智能體發展的未來想象
Pat Grady:Harrison,在我們深入討論人們如何構建這些東西之前,我們能不能先從高層次的角度來看一下?我們的創始人Don Valentine以問“那又怎樣?”這個問題而聞名。那麼我的問題是,假設自主智能體(utonomous agents)已經完美運行,這對世界意味着什麼?如果真有那麼一天,生活會有什麼不同?
Harrison Chase:從高層次來看,這意味着我們人類將專注於不同的事情。**我認為目前很多行業都有許多重複的、機械的工作。智能體的理念是將這些工作自動化,使我們能夠在更高層次上思考這些智能體應該做什麼,並利用它們的輸出進行更具創造性或更高效的工作。你可以想象一個人創業,他可以將很多原本需要僱人完成的職能外包給智能體,比如市場營銷、銷售等,這樣他就能專注於戰略思考和產品開發。**從總體上看,這將使我們能夠專注於我們想做的和擅長的事情,而將不必要的工作自動化。
Pat Grady:你現在看到任何有趣的實例嗎?比如説已經在生產環境中運行的。
Harrison Chase:我認為目前有兩個主要的智能體類別在逐漸獲得更多關注:一個是客户支持,一個是編程。我覺得客户支持是一個很好的例子。編程方面也很有趣,因為有些編程工作是非常有創造性的,需要很多產品思維和定位的考慮。但也有些編程工作會限制人們的創造力。如果我的媽媽有一個網站的想法,但她不知道如何編碼,要是有一個智能體可以完成這項工作,她就能專注於網站的構思,而自動化其餘部分。所以説,客户支持方面已經有很大的影響,而編程雖然還不夠成熟,但也有很多人對此感興趣。
Pat Grady:編程確實很有趣,因為這讓我們對AI充滿了樂觀。它可以縮短從創意到執行的距離,或者從夢想到現實的距離。你可能有一個非常有創造力的想法,但沒有工具將其實現,而AI似乎非常適合解決這個問題。Figma的Dylan也談到了這一點。
Harrison Chase:是的,這回到了自動化那些你不一定知道怎麼做或不想做但又必須做的事情的理念。我一直在思考,在生成式AI和智能體時代,作為一個建設者意味着什麼。今天的軟件建設者通常要麼是工程師,要麼僱用工程師,但在智能體和生成式AI時代,這意味着人們能夠建造更多種類的東西,因為他們手中擁有更多知識和資源,可以廉價僱傭和使用。這也許像是某種智能的商品化,這些大型語言模型提供了免費的智能,這確實啓發了許多新的建設者。
Sonya Huang:你提到了反思和鏈式思考等技術。能不能説説我們迄今為止在這些認知架構方面學到了什麼?你認為最有前景的認知架構是什麼?
Harrison Chase:也許值得談一下為什麼AutoGPT這種方式不起作用,因為很多認知架構正是為了應對這些問題。最初的問題是大語言模型甚至無法很好地推理出第一步該做什麼。所以鏈式思考(chain of thought)這種提示技術非常有用,它基本上給了大語言模型更多的思考空間,逐步推理出該做什麼。這種技術後來被越來越多地訓練到模型中,因為所有人都希望模型能做到這一點。
有一篇名為ReAct的論文,它提出了第一種針對智能體的認知架構。它做了兩件事:一是讓大語言模型預測接下來的行動,二是加入了一個推理組件,這有點像鏈式思考,但它在每一步之前都加入了一個推理環節。這種顯性推理步驟隨着模型的訓練變得越來越不必要,如同鏈式思考被訓練進模型一樣。但即便如此,這種循環過程已經成為ReAct論文的代名詞,這也是智能體最初的許多難題之一。
現在,這些問題部分解決了,**剩下的主要問題是規劃和完成任務的判斷。規劃是指模型在思考該做什麼時,會潛意識或有意識地制定一個計劃,然後逐步執行這個計劃。模型在長期規劃和執行這些步驟時表現不佳,所以一些規劃認知架構就應運而生,比如在開始時明確要求大語言模型生成一個計劃,然後逐步執行每一步。**這確保了模型生成了一個長期計劃,並按步驟執行,而不是生成一個五步計劃後只執行第一步然後宣稱任務完成。
**另一個相關的問題是反思,即模型是否正確完成了任務。**我可以生成一個計劃,去獲取一個答案,但可能得到的是錯誤的結果。在這種情況下,我不應該直接返回這個答案,而是應該思考自己是否正確完成了任務。如果只是在循環中運行模型,你就要求它隱性地進行這些檢查。所以一些認知架構加入了顯性的反思步驟,在每個動作或一系列動作之後,要求模型明確地檢查自己是否正確完成了任務。
**規劃和反思是目前較為流行的通用認知架構。還有很多定製的認知架構,但它們往往與具體的業務邏輯緊密相關。總體來説,我預期這些通用的規劃和反思功能會逐漸被訓練到模型中,**但這些功能在模型中能達到多高的水平還是一個有趣的問題,需要長時間來討論。
Pat Grady:Harrison, 你在人工智能峯會上提到過用户體驗的話題。通常我們會認為它是和架構相對立的。換言之,架構是幕後的東西,而用户體驗則是前端可見的部分。不過,現在好像出現了一個有趣的局面,用户體驗可以通過影響架構的有效性來發揮作用,例如通過像Devin那樣回溯到規劃過程中的某個點,讓用户可以及時發現問題並加以糾正。您能談談用户體驗在智能體或大型語言模型中的重要性嗎?也許可以分享一些您見過的有趣案例。
Harrison Chase:是的,我對用户體驗非常着迷,我認為這是一個有待深入研究的領域。**之所以如此重要,是因為大型語言模型並不完美,仍然存在出錯的傾向。正因如此,聊天成為了某些初期互動和應用領域中如此強大的用户體驗方式。**您可以輕鬆查看它在做什麼,它會逐字流式地返回響應。您可以通過回覆來輕鬆糾正它,也可以輕鬆地提出後續問題。因此,我認為聊天目前顯然已經成為主流的用户體驗。
不過,聊天也存在一些缺點。您知道,它通常是一條人工智能消息,然後一條人類消息,人類始終處於循環之中,這更像是copilot的模式。我認為,讓系統能逐漸脱離人類的干預,將使它能夠為您完成更多任務,併為您服務。這在我看來是極其強大且實用的。然而,話又説回來,大型語言模型並非完美,它們也會出錯。那麼,我們該如何平衡這兩者呢?
我認為Devin提到的一個有趣想法是,讓系統擁有一個能夠真正透明地列出智能體所做所有事情的列表。換言之,您應該能夠知道智能體做了什麼。這似乎是第一步,第二步則可能是能夠修改它正在做或已經做過的內容。因此,如果您發現它在步驟三出現了問題,也許可以回溯到那裏,為其提供新的指令,甚至進行編輯,就像手動決策一樣,然後繼續執行。
**除了這種回溯和編輯之外,還有一些有趣的用户體驗 (UX) 模式,例如消息收件箱的概念,智能體可以根據需要與人類進行互動。**假設您有 10 個智能體並行地在後台運行,它們可能時不時需要向人類澄清問題。因此,您可以擁有一個類似電子郵件收件箱的東西,智能體可以向您發送求助信息,例如“我遇到問題了,需要幫助”。然後,您可以在此時介入提供幫助。
**類似的還有審閲其工作成果。**對於撰寫不同類型內容的智能體、進行研究的智能體(例如研究型智能體),這無疑是非常強大的功能。OpenAI 研究人員開發了一個很棒的項目,圍繞智能體擁有了一些非常有趣的架構。我認為這是一個非常適合此類審閲的場景。您可以讓智能體撰寫初稿,然後由您進行審閲並留下評論。實現方式可以有多種。例如,最簡單的一種方式是,您可以直接留下大量評論,然後將所有評論まとめて發送給智能體,讓它去逐條修正。
**另一個非常有趣的是協同工作模式,類似於 Google 文檔,但卻是人類和智能體同時協作。**例如,我留下評論,智能體在修正的同時,我也可以繼續添加其他評論。不過,我認為這是一個單獨的用户體驗模式,搭建和啓動它都非常複雜。
最後一個我想談論的關於用户體驗的想法是,這些智能體將如何從互動中學習。正如我們討論的,人類會不斷糾正智能體或提供反饋。如果我不得不 100 次重複提供相同的反饋,那會讓人抓狂,不是嗎?**因此,系統的架構該如何設計才能讓智能體從中學習呢?這非常有趣,而且我認為所有這些問題都還有待解決。**就像在玩一個超前的遊戲,我們仍在嘗試弄清楚許多問題,這也是我們花很多時間思考的內容。
/ 04 / 仍待解決的現實問題
Pat Grady:實際上,這讓我聯想到你似乎因為積極參與開發者社區並密切關注開發者社區正在發生的事情以及開發者們遇到的問題而略有名氣。LangChain直接解決了其中一部分問題,但我猜你還會遇到許多超出範圍的其他問題。那麼在開發者嘗試使用LLMs或構建AI時遇到的問題中,有哪些有趣的問題是你們目前沒有直接解決的?
Harrison Chase:**兩個明顯的領域是模型層和數據庫層。**我們沒有構建矢量數據庫,儘管我們認為合適的存儲非常有趣,但我們沒有做這件事。我們也沒有構建基礎模型,也不做模型微調。雖然我們絕對想要幫助數據整理方面的工作,但我們並沒有構建用於微調的基礎設施。像Fireworks和其他類似的公司正在做這些事。我認為這些對於人們當下遇到的問題而言,可能屬於最迫切的基礎設施層。
不過,我還想補充一個問題或思考過程,那就是如果智能體真的成為未來,那麼將因此出現哪些新的信息問題?坦白地説,現在談論還為時尚早,因為智能體尚未足夠可靠,無法形成龐大的智能體經濟。但我認為諸如智能體身份驗證、智能體權限管理、智能體支付等問題都非常酷。
Sonya Huang:Harrison,你提到了微調,並且你們不打算涉足這個領域。看起來提示工程和認知架構幾乎是彼此的替代品。你如何看待當前人們應該如何使用提示工程與微調?未來會如何發展?
Harrison Chase:我不認為微調和認知架構是替代品,實際上我認為它們在很多方面是互補的。因為當你有一個更定製化的認知架構時,你要求每個智能體或每個節點執行的任務範圍變得更有限,而這對微調非常有趣。
Sonya Huang:也許在這個點上,你能談談LangSmith和LangGraph嗎?Pat剛才問了你們沒有解決哪些問題、你們正在解決哪些問題以及這與我們之前討論的有關智能體的所有問題相關,例如你們正在做的事情以改善狀態管理,讓智能體更可控等。您的產品如何幫助人們做到這一點?
Harrison Chase:也許先從LangChain剛推出時説起。LangChain開源項目解決並處理了幾個問題。其中一個是標準化這些不同組件的接口。我們有大量不同模型、不同矢量存儲、不同工具、不同數據庫的集成。這一直是LangChain的重要價值所在,也是人們使用LangChain的原因之一。
Lang Chain還提供了很多更高層次的接口,便於現成使用,例如用於問答的RAG或SQL之類的東西。它還具有用於動態構建鏈的更低級別運行時環境。鏈可以稱為DAG(有向無環圖)。因為當我們談論LangGraph以及LangGraph為什麼存在時,它要解決一個稍微不同的編排問題,即你想要具有循環的可定製和可控的元素。兩者都在編排空間,但我會區分鏈和這些循環。
我認為使用LangGraph並開始使用循環時,會出現許多其他問題。其中一個主要問題是持久層。持久層使您可以恢復,可以使其在後台以異步方式運行。因此,我們正越來越多地考慮部署這些長期運行、循環往復、讓人蔘與循環的人工智能應用程序。因此,我們將越來越多地解決這個問題。
LangSmith貫穿於所有這些工作,它從公司成立之初就一直在開發。它有點像大型語言模型應用程序的可觀測性和測試工具。從一開始,我們就注意到你們將大型語言模型置於系統的核心位置。大型語言模型不是確定性的。為了讓它們投入生產並充滿信心,您必須具備良好的可觀測性和測試能力。因此,我們開始構建 LangSmith,它可以與LangChain配合使用,也可以獨立使用。還有一些其他功能,比如提示管理、人類註釋隊列,以允許人工審核。我認為這非常關鍵。重要的是要問,什麼是這裏真正的新東西?LLMs是不確定性的,因此可觀察性變得更重要,測試也更難,需要人類更多地進行審核。LangSmith在這方面提供了很多幫助。
Pat Grady:Harrison,你能談談現有的可觀測性、現有的測試等在哪裏適用於LLMs,哪些地方LLMs有顯著差異需要新的產品、新的架構或新的方法嗎?
Harrison Chase:是的,我從測試和可觀測性兩個方面思考過這個問題。可觀測性方面,我感覺更明顯的是,我們需要一些新的東西。對於這些多步驟的應用程序來説,我認為不應該僅僅依靠現有級別的可觀測性來獲取洞見。現有的許多數據監控工具都很棒,但它們適用於特定的跟蹤,卻無法像LangSmith那樣輕鬆地獲得同等水平的洞見。許多人花時間查看特定跟蹤是因為他們想要調試特定跟蹤出現的問題。在使用大型語言模型時,所有這些非確定性因素都會發生。因此,可觀測性方面總讓我覺得需要有一些新的東西來構建。
測試則非常有趣,我也思考了很多。關於測試,可能有兩個新穎的獨特之處。一個是成對比較的概念。當我運行軟件測試時,我通常不會比較結果,大多數情況下是通過或失敗。即使進行比較,也可能是比較延遲峯值之類的東西,而不一定是兩個單元測試的成對比較。但是,如果我們看一下大型語言模型的一些評估方法,人們最信任的主要評估方法是大語言模型競技場,有點像聊天機器人競技場風格,讓你可以並排判斷兩個東西。因此,我認為這種成對比較的方式非常重要,與傳統軟件測試有相當大的區別。
我想,另一個因素取決於你如何設置評估方法,你可能在任何給定時間都沒有 100% 的通過率。因此,跟蹤一段時間並查看是否有改進或至少沒有退步就變得很重要。這不同於軟件測試,因為軟件測試通常要求一切都通過。
第三個方面是人力介入。我認為你仍然希望人類查看測試結果。也許這不是最恰當的措辭,因為查看這些內容需要大量的人力,但總的來説,這比擁有某種自動化系統更加可靠。如果你將它與軟件測試進行比較,軟件可以像我一樣通過查看來判斷 2=2 成立。因此,弄清楚如何將人類納入這個測試過程也確實是一件有趣、獨特和新穎的事情。
Pat Grady:在AI領域中,你最崇拜誰?
Harrison Chase:這是個好問題。我認為OpenAI過去一年半的成就非常令人印象深刻。所以我對Sam和他們團隊中的每一個人都非常欽佩。Logan在那裏的時候做得非常出色,向大家傳遞了很多概念。Sam顯然在很多事情上功不可沒。
還有一位鮮為人知的研究員David Dohan,我認為他絕對令人難以置信。他早期寫了一些關於模型級聯的論文,在我創辦LangChain的時候就和他聊過,他對我思考問題的方式產生了深遠的影響。因此,我非常欽佩他的做事方式。
此外,就像扎克伯格和Facebook,我認為他們在 Llama 和許多開源項目上做得非常出色。作為CEO和領導者,他們公司所展現出的那種擁抱方式令人印象深刻,因此我也非常欽佩這一點。
Pat Grady:説到這一點,有沒有哪位CEO或領導者是你嘗試效仿的,或者是你從他們的身上學到了很多關於你自己的領導風格的東西?
Harrison Chase:這是個好問題。我認為我更像是一位以產品為中心的CEO。因此,觀察扎克伯格很有趣。Brian Chesky也很有趣,他去年在紅杉資本的活動上談論產品和公司建設,我非常欣賞他的思考方式。所以Brian可能是我會想到的答案,但老實説,我還沒有深入研究過他所做的一切。
Pat Grady:如果你能給目前或有志成為AI創始人的人一個建議,你會説什麼?
Harrison Chase:那就是去構建,去嘗試構建東西。現在還處於非常早期。有很多東西可以去構建。我知道,GPT-5 可能即將發佈,它可能會讓你們做的一些事情變得無關緊要,但是在這個過程中你會學到很多東西。我堅信這是一項變革性的技術。因此,你學到的越多,你就越會從中受益。
Pat Grady:關於你的回答,我有一個小小的軼事想分享一下,因為這讓我覺得很有趣。還記得在2023年初的首次人工智能峯會上,當時我們剛剛開始更多地瞭解你。我記得你那天一整天都在埋頭寫代碼,儘管台上有人演講。所以你的建議是“just build”,而你顯然是踐行自己建議的人。
