Duolingo的首席執行官談語言學習、人工智能和CAPTCHA的終結 - 彭博社
Joe Weisenthal, Tracy Alloway, Cale Brooks
Luis von Ahn,Duolingo Inc.的聯合創始人兼首席執行官,出席了2023年7月11日星期二在美國愛達荷州太陽谷舉行的艾倫和公司媒體與技術大會。這次峯會通常是一個推動合併交易的熱點,但在今年的背景下可能會呈現出截然不同的氛圍,因為交易量不足、通貨膨脹和利率上升。攝影師:David Paul Morris/Bloomberg生成式人工智能的突破為人類創造了巨大的學習機會。我們可以利用它們來解釋新聞,理解歷史概念,修復我們的編碼錯誤等等。當然,人工智能也需要向人類學習。這項技術消化了大量的書面文本,並經常依賴於人類的反饋來校準其模型。多年來,Luis von Ahn一直處於這種來回互動的前沿。他目前是語言學習應用Duolingo的首席執行官和聯合創始人,但在此之前,他是CAPTCHA的原始開發者之一,CAPTCHA是您解決以登錄網站並證明自己是人類的小難題。當然,在證明您的人類身份的過程中,您也在訓練計算機更好地識別紅燈、人行橫道、自行車和波浪字母。在這一集中,我們討論了他工作的歷史,CAPTCHA的未來,Duolingo的成功以及他如何利用當今先進的人工智能模型來輔助語言學習。
播客中的關鍵見解:CAPTCHA背後的理念 — 4:06人工智能是否能夠欺騙CAPTCHA? — 6:41CAPTCHA是否正在改進人工智能? — 8:36Duolingo如何利用人工智能從人類那裏學習,以更好地教授語言 — 10:43Duolingo已經適應和開發的新教學法 — 15:41Luis從為用户優化體驗中學到了關於語言的什麼? — 21:42Duolingo如何構建新的人工智能模型,以彌補現有模型的不足之處 — 24:48在人工智能的軍備競賽中最重要的是什麼? — 26:46人工智能將如何降低成本並取代人類工作者? — 29:43Duolingo的人工智能基準測試 — 33:30Duolingo如何考慮語言中的上下文依賴性? — 35:20人工智能是否有朝一日能夠從零開始設計語言學習? — 38:43人工智能面臨的下一個重大挑戰是什麼? — 40:15Duolingo總部設在匹茲堡的優勢和劣勢是什麼? — 42:05
---
**Tracy Alloway (00:02):**大家好,歡迎收聽另一期Odd Lots播客。我是Tracy Alloway。
**Joe Weisenthal (00:22):**我是Joe Weisenthal。
**Tracy (00:24):**Joe,你知道嗎,最近我有了一個人生領悟…
**Joe (00:27):**好的,這應該很有意思,繼續。
**Tracy (00:30):**我突然意識到,我花費了相當多的時間來證明我實際上是一個人類。
**喬(00:39):**變得越來越難了。我知道你在説什麼。所以我們在談論,你知道,你去一個網站,必須輸入驗證碼,就像,點擊所有那些有人行橫道或卡車的方塊,感覺就像變得越來越難了。有時候我會説“不,相信我。我是一個人類。”
**特蕾西(00:55):**就是這樣。每次發生這種情況,我都會對自己是否只是我而產生懷疑?我是不是在挑選一組圖片中所有摩托車方面特別糟糕,還是它們只是變得越來越奇怪或者在面對新型技術時變得越來越複雜?
**喬(01:16):**不只是你。我從多個人那裏聽説過這個問題,事實上,在準備這一集時,我聽到人們正談論着這個問題,但你知道,這是一個大問題。我們做過那期關於Worldcoin的節目。就像每個人都在努力找出在人工智能、機器人和人工智能等等的世界中,如何知道你正在互動的人是否實際上是一個人?
**特蕾西(01:38):**是的。我很高興你提到了人工智能,因為顯然這種動態的一部分是人工智能似乎在解決這些特定類型的問題上變得更加優秀,但同時它們也被更多地用來訓練AI模型。是的。所以在這一點上,我認為我們都知道為什麼我們不斷嘗試在一堆照片中識別自行車,但驗證碼背後的整個理念是,或者曾經是,人類仍然有優勢。因此,有些事情人類能夠比機器更擅長。我們曾經談論人類在語言學方面有優勢。所以有這樣一個觀念,人類語言是如此複雜,如此微妙,以至於機器也許永遠無法完全理解人類語言的所有複雜性和微妙之處。但顯然自從生成式人工智能和自然語言處理出現以來,我認為對此有更多疑問。
**喬(02:38):**是的,我是説,看,我覺得像現在這樣的典型聊天機器人可能比大多數人更擅長打出幾段文字。這一切似乎有點像,正如他們在互聯網上所説的那樣,對我來説都有點中規中矩。它從來沒有讓我覺得非常聰明,但顯然計算機可以像人類一樣交談。因此,它引發了各種有趣的問題。你提到了CAPTCHA的一部分是這樣的,訓練計算機是這些聊天機器人的一個重要部分。所謂的真實人類反饋,人們説這個答案“比另一個好”?這個答案比另一個好,隨着他們不斷完善模型等等。所以我認為有一個有趣的時刻,我們從計算機那裏學習,計算機也從我們那裏學習,也許兩邊共同合作,碳和硅一起工作。
**特蕾西(03:25):**我覺得這是一個很好的説法。而且“中規中矩”是一個被低估的侮辱詞。比如,在網上稱人們為“正常分佈曲線的頂端”是我最喜歡做的事情之一。無論如何,我很高興地説,今天我們實際上有了完美的嘉賓。我們將要和一個在CAPTCHA等方面發揮了很大作用的人進行交談,他在人工智能領域做了很多工作,特別是在語言學和語言領域。現在我們將要和Luis von Ahn進行交談。他當然是Duolingo的首席執行官和聯合創始人。所以Luis,非常感謝你參加Odd Lots節目。
**Luis von Ahn(04:04):**謝謝。謝謝你們邀請我。
**Tracy (04:06):**也許一開始,先跟我們談談 CAPTCHA 背後的理念,以及為什麼它似乎已經成為了我的生活中的一個不可忽視的部分,我不想説成為了我的生活的重要部分,但我每天至少會花幾分鐘來完成一個版本。
**Luis (04:21):**是的。所以最初的驗證碼的理念是它是一個用來區分人類和計算機的測試。你可能想要區分你在網上是在與人類還是計算機進行交互的原因,例如,這就是最初的動機。公司提供免費的電子郵件服務,你知道,他們面臨的問題是,如果你允許任何東西註冊免費電子郵件服務,無論是計算機還是人類,都可能編寫程序來獲取數百萬個免費電子郵件帳户。而人類,因為他們通常不那麼有耐心,無法為自己獲取數百萬個免費電子郵件帳户。他們只能獲取一個或兩個。所以 CAPTCHA 的最初動機是制定一個測試,確保獲取免費電子郵件帳户的人確實是人類,而不是編寫用於獲取數百萬個免費電子郵件帳户的計算機程序。
你知道,它的工作方式有很多種。最初的工作方式是扭曲的字母。所以你會得到一堆預先扭曲的字母,然後你必須輸入它們是什麼。這種方法有效的原因是因為人類非常擅長閲讀扭曲的字母。但是在那個時候,也就是 20 多年前,計算機根本無法很好地識別扭曲的字母。所以那是一個很好的測試,可以確定你是在與人類還是計算機交流。但隨着時間的推移,計算機在嘗試解密扭曲文本方面變得相當擅長。因此,不再可能通過給出帶有扭曲文本的圖像來區分人類和計算機,因為計算機在這一點上幾乎和人類一樣擅長。
這些測試開始變成其他東西。我的意思是,現在你看到的比較流行的一種是點擊圖片。所以你可以看到一個網格,比如四乘四的網格,上面可能寫着“點擊所有的交通燈”或者“點擊所有的自行車”等等。通過點擊它們,你展示了你能夠識別這些東西。它們變得越來越難是因為計算機在辨別哪些是交通燈等方面變得越來越好。到現在,你得到的是我們仍然認為計算機不太擅長的東西。所以圖片可能非常模糊,或者你只能看到一個小角落之類的東西。這就是它們變得越來越難的原因,我預計這種情況會繼續發生。
**Joe (06:41):**所以你創立了一家名為reCAPTCHA的公司,幾年前將其出售給了谷歌,那麼會不會有一個時刻……我想計算機視覺和它們解碼圖像或識別圖像的能力並沒有達到極致。我認為它會變得更好,而人類解碼圖像的能力,我懷疑它並沒有真正變得更好。我們可能已經保持了幾千年了。會不會有一個時刻,人類無法創造出比計算機更擅長的視覺測試?
**Luis (07:15):**我相信這種情況會在某個時刻發生。是的。很難準確説出具體時間,但你知道,你可以看到,目前計算機變得越來越好。另一個重要的事情是這種類型的測試有額外的限制。它還必須是這樣的情況,不僅僅是人類可以做到。實際上人類應該能夠相當快地做到這一點,並且有足夠的成功機會。
**喬(07:43):**快速地在手機上,在一個非常小的屏幕上,就像我的拇指一樣只有屏幕的一半大小。是的,是的。
**路易斯(07:50):**可能不是很快,我的意思是,可能需要你,我不知道,30秒或一分鐘,但我們不能讓測試花費一個小時。這根本行不通,我們做不到。所以必須快速。必須在手機上完成。必須是這樣,計算機應該能夠評分,[這台]計算機應該能夠知道正確答案是什麼,儘管它無法解決。因此,由於所有這些限制,我覺得在某個時候這將變得不可能。我是説,當我們開始原始的CAPTCHA時,我們就知道有一天計算機會變得足夠強大。但我們根本不知道需要多長時間。我仍然不知道需要多長時間,但如果在五到十年內,我不會感到驚訝,因為在線快速區分人類和計算機的方法可能會變得非常有限。
**特蕾西(08:36):**是的。那時我們就會有眼球掃描球了。但我的意思是,你提到不能有一個需要一個小時的測試之類的事情,但這在我看來引出了一個問題,為什麼人們要使用這些測試呢?所以,好吧,顯然你想要區分人類和機器人,但我有時候覺得這些基本上是為AI訓練程序提供免費勞動力,對吧?所以即使它們是,即使你可以通過其他方式驗證身份,為什麼不讓大規模的人們花兩分鐘來訓練自動駕駛汽車呢?
**Luis (09:11):**是的。我的意思是,這就是這些東西的作用。這就是 reCAPTCHA 的最初想法,那是我的公司。這個想法是,你可以在證明你是一個人的同時,做一些計算機目前還無法做到的事情,而這些數據可以用來改進計算機程序。所以當你點擊自行車或者點擊交通燈之類的時候,那很可能是在使用數據。我説“很可能”,因為我不知道你在使用哪種 CAPTCHA。可能有一些並沒有在做這個,但總的來説,這些數據正在被用來改進諸如自動駕駛汽車、圖像識別程序等東西。所以這是正在發生的事情,而且這基本上是一件好事,因為這基本上是在讓人工智能變得越來越聰明。
但你知道嗎?我們仍然需要它成為一個良好的安全機制。所以如果有一天只有計算機才能做到這一點,那麼你就知道那不是一個很好的安全機制,也不會被使用。我覺得如果我們要做一些事情,我們可能需要類似真實身份的東西。我不知道是不是會是眼球掃描或者其他什麼,但 CAPTCHA 的好處在於它不會將你與你聯繫起來。它只是證明你是人類。我們可能需要一些能夠將你與你聯繫起來的東西。我們可能需要一些能夠説“嗯,我知道這是這個具體的人,因為”,你知道,“我們正在掃描他們的眼球,我們正在查看他們的指紋,無論是什麼。而且這確實是一個真實的人,就是這個人。”
**喬(10:42):**為什麼我們不先放慢腳步,稍微退後一下。目前你是Duolingo的CEO,這個流行的語言學習應用,是一家上市公司,股票表現比2021年上市的許多公司要好得多。你可能期望,你知道,當人們有很多空閒時間時會有一波繁榮,但後來下降了。你也是卡內基梅隆大學最受尊敬的計算機科學家之一。你的工作的主線是什麼,或者你如何描述將CAPTCHA與Duolingo的語言學習聯繫起來?
**路易斯(11:20):**這與你所談論的內容相似。當你提到這一點時,我在微笑。我的意思是,我認為總體的主線是人類從計算機中學習,計算機從人類中學習的結合。你知道,CAPTCHA就是這樣 - 當你輸入CAPTCHA時,計算機正在學習你的操作,而在Duolingo的情況下,Duolingo正在學習如何通過與人類的互動來更好地教授人類。所以,你知道,Duolingo隨着時間的推移變得更好,因為我們找到了不同的方式,讓人類學習得更好。你知道,人類在語言方面變得更好了。而Duolingo在教授你語言方面也變得更好了。
**特蕾西(12:19):**喬,你用過Duolingo嗎?
**喬(12:21):**我還沒有。好吧,直到最近我還沒有。所以上週事實證明,我去拜訪了住在危地馬拉的母親,而危地馬拉,路易斯,我知道你來自那裏。
**路易斯(12:33):**哦哇!我來自的地方!
**喬(12:33):**她不是那裏的人,但八年前她去拜訪了一個朋友,她愛上了那裏。她就説,我就在這裏待著吧。她有一間小房子,從未離開過。她非常喜歡那裏。所以我第一次去拜訪她,她住在阿蒂特蘭湖附近的房子裏。然後我就想,“哦,這裏的生活很美好,也許有一天我甚至會有那樣的房子,我應該學習西班牙語。” 所以我開始學了,部分是因為那次旅行,部分是為了準備這一集。我下載了它並開始學習,我懂一點西班牙語,不多,比如我可以,你知道,要賬單之類的,但我想,“哦,我應該開始學習它。”
**特蕾西(13:05):**這很有趣。因為我也是在去危地馬拉之前用Duolingo開始學習西班牙語的。我可能不是這個應用的最佳代言人。我害怕。就像,我唯一記得的基本上是,“Quisiera una habitación para dos personas por dos noches”,這就是我從中記住的全部,但是……
**路易斯(13:25):**那還不錯。
**特蕾西(13:26):**哦,謝謝!好了,我需要重新開始學習,但你為什麼不和我們談談在這種語言學習領域中AI的機會呢?因為直覺上看,像聊天機器人、生成式AI和自然語言處理等技術似乎非常適合這種業務。
**Luis (13:48):**是的,這真的很合適。所以你知道,我們用Duolingo教授語言。從歷史上看,學習一門語言有很多不同的組成部分。你得學會閲讀一門語言。你得學一些詞彙。你得學會聽它。如果有不同的書寫系統,你得學習這個書寫系統。你得學會進行對話。學習一門語言需要很多不同的技能。
從歷史上看,我們在所有技能方面做得相當不錯,除了其中一個,那就是進行多輪流暢對話。所以我們可以教你,你知道,歷史上我們可以教你,我們可以很好地教你詞彙。我們可以教你如何傾聽一門語言,通常只需讓你多聽一些東西。所以我們可以教你所有的東西。但是能夠實踐實際的多輪對話並不是我們過去只用計算機就能做到的,這需要我們將你與另一個人配對。現在,有了Duolingo,我們從來沒有讓人們與其他人配對,因為事實證明,只有極少數人真的願意與一個説不同語言的陌生人在互聯網上配對。對大多數人來説,這太尷尬了。是的。
**Tracy(14:57):**這也很危險。
**Luis (14:58):**所以我們從來沒有這樣做過。啊,你説對了。嗯,這可能是危險的。是的。但是,事實上,只有10%的人足夠外向,可以這樣做。
**Luis (15:08):**所以我們總是,你知道的,我們做這些有點奇怪的事情來模擬短對話,但我們以前永遠無法做到現在能做到的事情。因為有了大型語言模型,我們真的可以讓你練習。你知道,可能不是一個三小時的對話,但我們可以讓你練習一個多輪次,10分鐘的對話,效果還不錯。這就是我們在Duolingo上所做的。我們正在利用它來幫助你更好地學習會話技巧。而且,這確實幫了很多忙。
**Joe (15:41):**我有很多問題,我覺得我媽媽會非常喜歡這一集,因為除了危地馬拉的聯繫外,她是一名語言學家。她會説七種語言,包括西班牙語。
但有一件事我很好奇,也許這有點隨意的跳躍點,你知道,我想到了象棋電腦,最初它們是在一組著名的象棋比賽中訓練的,然後一些電腦變得更好了。然後新一代基本上是從規則,從第一原則重新學習象棋。結果他們變得更強了。
我想知道在構建Duolingo改進過程中,你是否正在學習,比如在語言學習中,無論是沉浸式學習的必要性還是死記硬背或其他某些東西,語言學家們一直認為是良好語言學習的必要組成部分,但當你從頭開始重新構建教育時,舊的教條是否完全錯誤,當你重新從頭開始構建過程時,是否會出現新形式的教學法?
**Luis (16:53):**這是一個很好的問題,也是一個很難回答的問題,原因如下。至少對我們來説,我們通過一個應用程序來教授一門語言。從歷史上看,人們學習語言的方式基本上是通過與另一個人練習或者在課堂上學習。而我們是通過一個應用程序來教學,這個環境因為一個關鍵原因而完全不同,那就是很容易離開應用程序,而離開課堂就沒有那麼容易。你必須去,通常是被父母強迫去上課,所以一般來説,當你只是通過電腦自學時,最困難的事情就是動力。事實證明,教學法很重要。當然很重要。但就像鍛鍊一樣,最重要的是你每天都有動力去做。
所以,就像橢圓機比踏步機好還是比跑步機好?可能有一些區別,但實際上最重要的是你經常去做。因此,我們發現使用Duolingo時,如果我們要通過一個應用程序來教學,有很多事情在歷史上語言教師或語言學家認為不是教授語言的最佳方式。但如果你要通過一個應用程序來做,你必須讓它變得有趣。我們必須以這種方式做。我們發現我們在某些方面可以比人類教師做得更好,而在某些方面做得不那麼好,因為這是一個非常不同的系統。但再次強調,最重要的是保持你的動力。所以我們為了保持人們的動力所做的事情的例子是“課程”,這是Duolingo上的一堂課。
他們不是30分鐘或45分鐘。它們是兩分半鐘。如果時間再長一點,我們就會失去人們的注意力。所以我認為這樣的事情非常重要。現在,我要説與你的問題相關的是,一個令人驚訝的事情是,我們一開始是有語言專家的,他們是第二語言習得博士,告訴我們如何最好地教授某些東西,但然後計算機接管了這一切並進行了優化。因此,計算機開始找到不同的方式。有一些事情的順序實際上比那些擁有第二語言習得博士學位的人認為的更好。但這是因為他們沒有數據來優化這一點。而現在,你知道,有了Duolingo,我們有大約10億個練習。每天有10億個練習被使用Duolingo的人解決。這就有很多數據幫助我們更好地教學。
**特蕾西 (19:23):**這正是我想問你的,這項技術有多少迭代?AI模型在多大程度上是根據你輸入的數據進行發展,然後AI模型改進用户的結果,從而產生更多數據用於訓練?
**路易斯 (19:42):**我們正是在做這個。特別是,我們已經能夠大大優化的一件事是,我們給每個人哪些練習。當你在Duolingo上開始一節課時,你可能認為所有的課程對每個人都是一樣的。絕對不是這樣。當你使用Duolingo時,我們會觀察你的一舉一動,計算機會製作一個關於你作為學生的模型。所以它會看到你做對了什麼,做錯了什麼。基於此,它開始意識到你在過去時不太擅長或者你在將來時不太擅長等等。每當你開始一節課,它會專門為你使用那個模型。它知道你在過去時不太擅長。所以它可能會給你更多的過去時練習或者做類似的事情。
這絕對會隨着更多更多的數據變得更好。現在,我要説另一件非常重要的事情。如果我們只給你上那些你不擅長的課,那將是一堂可怕的課,因為那將是極其令人沮喪的。基本上就是“這些是你不擅長的事情”,然後會做更多這樣的事情。因此,除此之外,我們有一個系統,它會嘗試,隨着時間的推移變得越來越好,它針對我們在Duolingo上的每個練習可以給你的情況進行了調整。它知道你會做對那個練習的概率。每當我們給你一個練習時,我們會優化,以便儘量只給你那些你有大約80%的機會做對的練習。這非常有效,因為事實證明80%是一種最大發展的區域,基本上不會太容易,因為你不會有百分之百的機會做對。
如果太容易,就會有兩個問題。不僅僅是因為太容易而無聊,而且如果你有100%的機會做對,你可能也學不到任何東西。也不會太難,因為如果你只有30%的時間做對,人類會感到沮喪。所以事實證明我們應該給你那些你有80%機會做對的事情。這非常成功,我們不斷變得越來越擅長找到那個你有80%機會做對的確切練習。
**Joe (21:42):**好的。我有另一個,我想我會説是關於語言的理論問題。我想我在你的一次採訪中讀到,作為改進Duolingo [應用程序] 過程的一部分,你們總是在進行諸如,人們應該先學習詞彙嗎?人們應該先學習形容詞還是副詞還是動詞,或者其他什麼… 這種“什麼是正確順序”的不斷過程。
關於學習順序的規則是否因語言而異,以至於學葡萄牙語的人在語法或詞彙方面可能有不同的最佳學習路徑,與學習中文或波蘭語的人有所不同?因為我很好奇,我們是否可以通過跨語言的最佳學習順序揭示關於共同語法和語言的深層事實。
**Luis (22:33):**是的,它們確實根據你正在學習的語言而有很大不同。而且更重要的是,它們還根據你的母語而有所不同。所以我們實際上有一門專門為西班牙語為母語者學習英語的課程,與我們為中文為母語者學習英語的課程不同。它們是不同的課程。這是有原因的。事實證明,對於西班牙語為母語者來説,在學習英語時困難的地方與對於中文為母語者來説困難的地方是不同的。通常,語言之間共同的部分是容易的,而語言之間非常不同的部分是困難的。所以只是一個愚蠢的例子,我是説,當你從西班牙語學習英語時,有幾千個同源詞,也就是與原詞相同或非常接近的詞。所以你立刻就知道這些詞。如果你是從西班牙語學習英語,我們甚至不需要教你這些詞,因為你已經自動知道它們,因為它們是相同的詞。
這在中文學習英語時並不完全正確。其他例子是,你知道,對我來説,我開始學習德語,對我來説德語學起來相當困難,因為我的母語是西班牙語。西班牙語並沒有一個非常發達的語法格概念,而德語有。但是從俄語學習德語,這個概念就不難理解。所以這取決於你的語言有哪些概念。
此外,不完全是概念,但就發音而言,每個人都説西班牙語的發音真的很容易。這是真的。西班牙語的元音非常容易,因為只有大約五個元音音素。實際上稍微多一點,但大約是五個元音音素。而其他語言可能有15個元音音素。所以學習西班牙語很容易,但反過來,如果你是西班牙語為母語的人,學習那些有很多元音音素的語言就真的很難,因為你甚至聽不出區別。你知道,當你作為西班牙語為母語的人學習英語時,你根本聽不出 beach 和 b**** 之間的區別。你聽不出那個區別。因此,人們因此犯了很多有趣的錯誤。
**Tracy (24:37):**我覺得曾經有很多 T 恤涉及到這一點。
**Luis (24:43):**嗯,因為如果你是西班牙語為母語的人,你就是聽不出那個區別。
**Tracy (24:48):**所以我想問你的一件事是你實際使用的模型類型。我相信你在某些事情上使用了 GPT-4,比如你的高級訂閲 Duolingo Max,但同時你也開發了自己的專有 AI 模型叫做 Birdbrain。我很好奇為什麼要同時使用現成的解決方案或平台,同時也開發自己的模型。你是如何決定走這條路的?
**Luis (25:20):**是的,這是一個很好的問題。我認為區別在於這些實際上非常不同。自從兩年前大型語言模型或生成式 AI 變得非常流行以來,之前 AI 可以用於我們的不同事情。例如,我們以前沒有使用 AI 來練習對話,但我們使用 AI 來確定給哪個人提供哪個練習。我們建立了自己的。Birdbrain 模型是一個試圖找出給哪個人提供哪個練習的模型。
你知道,就在最近的兩年裏,對不起,是過去的兩年。當人們談論模型時,他們通常指的是語言模型。而這種特定類型的AI模型,它的作用是根據前面的單詞預測下一個單詞。這就是語言模型的作用。大型語言模型在這方面特別擅長。我們沒有開發自己的大型語言模型。我們決定更容易地使用類似GPT-4這樣的東西,但我們有自己的模型,用於預測給哪個用户什麼練習。對,這是一個完全不同的問題。
**Joe (26:47):**説到AI,所有這些,尤其是那些大公司幾乎在炫耀他們給Nvidia的Jensen Huang多少錢,就像,“哦,我們剛剛花費了,我們將在接下來的兩年內花費200億美元來收購H100芯片,”或者其他什麼。幾乎看起來像是一場軍備競賽。而且也有這樣一種觀點,實際上最好的模型不一定是那些嚴格擁有最多計算資源的模型,而是那些其他模型根本沒有的數據集。我很好奇,就像Duolingo一定擁有大量專有數據,來自所有用户的互動。根據你的經驗,當你考慮誰將成為這個領域的贏家時,是那些只擁有最多電力、能源和芯片的人嗎?還是那些可以訪問某種數據,可以對其模型進行微調,而其他模型無法做到的人?
**Luis (27:48):**這取決於你在談論什麼。你知道,我們作為Duolingo擁有很多其他人沒有的數據,這些數據是關於每個人學習語言的數據。我的意思是,這不是你可以在網上找到的數據或其他任何東西。這只是我們擁有的數據,我們正在生成並將為此訓練我們自己的模型。我認為沒有足夠的電力可以訓練一個沒有這些數據的模型能夠和我們的數據一樣好。但這是專門用於語言學習的。如果你在談論訓練一個通用模型,比如一個通用的語言模型,可以用來進行對話等等,通常你可以從那裏得到相當不錯的數據,你知道,免費的YouTube視頻或很多Reddit對話或其他什麼。
裏面有很多數據,可能功率會很重要。所以這取決於你要用你的模型做什麼。如果你用它來做一個非常具體的目的,並且你有非常具體的數據,是專有的,那對於特定目的來説會更好。但我覺得兩者都很重要;你擁有什麼數據以及你花費了多少電力。但我也認為隨着時間的推移,希望我們會越來越擅長這些算法。如果你考慮一下,人類大腦使用大約30瓦的電力。對於人類大腦來説,這是相當不錯的。我們不需要,你知道,有些模型,人們説“哦,這使用了紐約市所有電力的量。”我們用這些來訓練一個模型。我們的大腦使用的電力遠遠少於那個。而且效果相當不錯。所以我覺得隨着時間的推移,希望我們也能夠達到一個我們不像今天這樣瘋狂地使用電力的程度。
**Tracy (29:37):**我很高興我們的大腦能源效率很高。知道這一點很好。我們一直在談論很多……
**Luis (29:41):**比計算機好多了!
**Tracy (29:43):**我們一直在討論如何在產品本身中使用人工智能;以改善學習語言的體驗。但現在我們經常聽到的另一個問題是人工智能在更廣泛的經濟領域中的作用,涉及勞動力、工作安全等等。隨着公司試圖變得更加高效,這也是一個焦慮點。所以我想知道在企業方面,人工智能在多大程度上已經融入了商業模式,以便優化成本或減少勞動力?我記得去年底圍繞着Duolingo有很多關於這個話題的頭條新聞。
**Luis (30:26):**是的。首先,那些頭條新聞讓我感到不安,因為它們是錯誤的。你知道,有很多頭條新聞説我們進行了大規模裁員,但事實並非如此。真實的情況是,我們確實在大力發展人工智能,這是有道理的。這是一項非常具有變革性的技術。所以我們正在大力發展它。同樣真實的是,許多工作流程變得更加高效。去年底發生的事情是,我們意識到我們有全職員工,但也有一些小時工承包商。我們意識到我們需要更少的小時工承包商。因此,對於我們的一小部分小時工合同,我們沒有續簽他們的合同,因為我們意識到我們需要更少的人來完成一些任務,老實説,計算機和人類一樣擅長。
這可能對像小時工承包商這樣的人羣是真實的,他們基本上被要求做一些計算機已經非常擅長的非常機械的語言任務。我認為,如果你在談論我們的全職員工和那些不僅僅是在做機械重複性工作的人,那將需要一段時間來替換。我不認為,當然這也不是我們作為一家公司想要做的事情,我最近聽到一個很好的説法,那就是“你的工作不會被人工智能取代,而是會被懂得如何使用人工智能的人取代。”所以在公司裏我們看到的,至少對於我們的全職員工來説,不是我們能夠或者甚至想要替換他們,我們看到的只是更高效率,以至於人們能夠集中精力在更高層次的認知任務上,而不是機械的事情。
我不知道,一百年前人們被僱傭來做加法或乘法。最初的“計算機”實際上是被僱傭來做乘法的人類。我們能夠機械化這一過程,並使用實際的計算機來做這件事,這樣人們就不必再做這件事了。相反,他們花時間在更高層次上規劃某事,而不必進行乘法運算。
我們現在看到的情況與此類似。而我們現在看到的另一件令人驚奇的事情是,我們正在節省成本,因為一個人可以做更多的事情,而且我們也能夠做得更快。特別是在數據創建方面,我的意思是,我們教你閲讀的一種方式是教你閲讀短篇小説。我們過去需要創作,也需要創作很多短篇小説。
我們過去能夠以一定的速度創作短篇故事。現在我們可以以10倍的速度創作。而能夠以10倍的速度創作的美妙之處在於你實際上可以提高質量。因為如果你以10倍的速度創作一次,你不喜歡,你可以重新開始,做出一些改變,然後,哦,你不喜歡?好的,再試一次。所以你可以,你可以嘗試10次,而以前你只能嘗試一次,通常你不必嘗試10次,你只需要嘗試更少的次數。所以這能夠在同一時間降低我們的成本,同時使速度更快,質量更好。所以從公司的角度來看,我們對此非常滿意。
**Joe (33:30):**你能談談更多關於基準測試人工智能嗎?因為有所有這些測試,對吧?你看到這些網站,它們説,嗯,這個在LSAT上得了這個分數,這個在SAT上得了這個分數。我總是不能完全理解,從你的角度來看,基準測試不太清楚,你是如何基準測試不同的模型,並確定何時使用人工智能而不是讓人來做某項任務。
**Luis (33:58):**是的,我有和你一樣的感覺。我覺得很多這些基準測試都是由市場團隊制定的。我們內部做的事情有兩件。首先,我們只是嘗試一些東西,然後我們看看它,我們看看非常具體的 - 一個AI能夠通過LSAT或其他什麼的很好,但我們,你知道,我們不是為了通過LSAT而做生意。我們的業務是做我們正在做的事情 - 創作短篇故事或其他什麼。所以無論是什麼任務,我們只是嘗試它,然後我們自己評判質量。
到目前為止,我們發現OpenAI模型的質量比其他人的略好一些,但並沒有好太多。我的意思是,兩年前它要好得多。似乎其他人正在迎頭趕上,但到目前為止,我們發現這只是我們進行測試時的情況,再次強調,這只是一個公司,我相信其他公司可能會發現不同的東西,但對於我們來説,對於我們特定的用例,我們一次又一次地發現GPT-4表現更好。我不知道,當然現在每個人都在宣佈會有GPT-5之類的。我不知道那些會是什麼樣子,但這是我們的發現。但你知道,通常我們只做我們自己的測試。
**Joe (35:01):**是的。特蕾西,我覺得這很有趣,尤其是[因為]我認為我們已經談論過這個問題。很明顯,一個模型是否會被證明比其他模型更出色還有待定。就像谷歌在基本上的20年裏遠遠領先於其他所有人一樣,而且現在仍然是。就像,我不清楚AI是否會出現這種情況。
**特蕾西 (35:20):**是的,我們處於,我不知道,聊天模型的必應時代,最終我們都會遷移到其他東西。路易斯,我想問你一件事,這有點回到對話的最開始和一些關於語言的舊思想。
過去曾經有一種共識,但我不想説是共識,但曾經有一些認為語言在很多方面非常複雜,很多時候有些模稜兩可或可能依賴於上下文,這使得AI很難理解。我現在想知道,像Duolingo這樣的東西,你的模型如何考慮到這種上下文依賴性?我特別考慮的是像普通話這樣的語言,發音有點棘手,很多理解取決於特定單詞所説的上下文。那麼,你是如何處理這種情況的?
**Luis (36:19):**是的,我覺得這是一件有趣的事情。你知道,當你問這個問題的時候,我想到了這件事。我從90年代末就接觸人工智能了,它就像是一個不斷移動的目標。我記得每個人都在説,看,如果一台計算機能下國際象棋,那肯定它具有人類水平的智能。這就是每個人都説的。然後事實證明,計算機確實能下國際象棋,但沒有人同意它具有人類水平的智能。就像,“好吧,它能下國際象棋,下一個目標是什麼。” 然後他們會繼續提出類似的東西,比如,如果一台計算機能下圍棋,或者如果一台計算機能做這個,那麼… 最近的一些事情之一是,你知道,如果一台計算機能夠寫詩得很好,或者理解文本,那麼肯定它是智能的。
我是説,現在,像GPT-4這樣的模型在做事情方面真的很出色——肯定比普通人好。它們可能不如世界上最好的詩人那麼厲害,但肯定比普通人寫詩更好。在幾乎任何涉及文本處理的事情上,肯定比普通人更好。實際上,如果你看看普通人,他們在寫作方面並不特別擅長。
**Joe (37:23)**包括很多專業作家。
Luis (37:25)
哦,是的。不,我是説,這些模型真的很出色。事實上,你可以寫一些寫得還行的東西,然後讓模型把它變得更好。它就會這樣做。它會讓你的文本變得更好。所以,這就是一個有趣的事情,就是人工智能…我們不斷提出這樣的事情,比如,如果人工智能能解決那個問題,那就夠了。就夠了。我不知道下一個目標會是什麼,但是,你知道,我們不斷提出這樣的事情。就語言而言,事實證明語言大部分可以被這些模型捕捉。
事實證明,如果你設計一個神經網絡架構,這個——你知道的,沒有人能猜到,但事實證明,如果你設計這個神經網絡架構,稱為transformer,並用大量文本訓練它,它幾乎可以捕捉語言的任何細微差別。再次強調,沒有人能想到這一點,但事實證明情況就是這樣。所以在這一點上,當你問到,你知道,我們如何處理上下文或其他內容時,它就起作用了。我們有些是用手寫規則,因為我們寫規則。但一般來説,如果你要使用AI,它就起作用了。你可以問我為什麼它起作用,我不知道為什麼它起作用。我認為沒有人知道。但事實證明,統計數據足夠強大,如果你用大量文本訓練它,它就起作用了。
**Joe (38:43):**我只是想回到,你知道,AI的發展方向,你提到AI可以生成成千上萬,或者,你知道,非常迅速生成大量短篇故事。然後人類可以説,“好的,這些是我們可以改進的好故事。” 所以你不僅可以獲得效率節約,實際上你還可以獲得更高質量的教訓等等。但是,你知道,我在提高抽象層次。比如,將來是否會有一天,學習一門語言或整個序列幾乎完全是AI可以從零開始做的事情?再次強調,我在想到那個象棋類比,不需要使用整個遊戲歷史來學習,只需要知道基本規則,然後進一步提出一些東西。比如,AI最終是否能夠設計學習一門語言意味着什麼的架構?
**Luis (39:36):**我是説,當然。我認為在某個時候,人工智能將能夠做幾乎一切。
**Joe (39:41):**對。
**Luis (39:41):**很難知道這需要多長時間。我是説,這真的很難。而且,老實説,對於我們自己的社會來説,我希望這個過程是逐漸的,而不是突然間就發生。因為,如果有一天我們發現人工智能真的能夠… 如果明天有人宣佈,好吧,我有一個幾乎可以完美做任何事情的人工智能,我認為這將是一個重大的社會問題。因為我們將不知道該怎麼辦。但是如果這個過程至少需要20、30年,我們將能夠作為一個社會,找出該怎麼做。但是,總的來説,我是説,我認為在某個時候,人工智能將能夠做我們能做的一切。
**Tracy (40:15):**目前人工智能面臨的最大挑戰是什麼?我意識到我們一直在談論機遇,但目前你們正在努力克服的問題是什麼?無論是像獲得足夠的計算資源還是招聘到最優秀的工程師,或者是與其他許多也在使用人工智能的公司競爭,也許是在同一行業。
**Luis (40:41):**我是説,確保招聘到優秀的工程師對於任何與工程相關的事情來説一直是一個挑戰。你知道,你想要最優秀的工程師,但他們並不多,所以競爭很激烈。這當然是真的。你知道,在特別是人工智能方面,我會説,我不知道。這取決於你想要實現什麼。這些模型變得越來越好。它們還沒有完全展示出我們希望它們具備的實際推理和理解能力。我是説,你仍然會看到一些… 因為它們的工作方式,我是説這些只是在預測下一個單詞。因為它們的工作方式,你會看到它們有時會把加法搞錯。因為它們實際上並沒有在做加法,它們只是在預測下一個單詞。結果你可以預測很多事情。所以它們並沒有真正理解加法的概念。所以我認為,你知道,如果你在尋找的是一種普遍智能,我認為在實際理解這些模型尚未具備的某些概念方面還需要一定程度的努力。而且,你知道,我覺得需要新的想法來解決這個問題。我不知道這些想法是什麼,如果我知道我會去做,但是,需要新的想法來解決這個問題。
**喬(41:48):**是的,這仍然讓人難以置信。就像,你看到AI產生了某種令人驚歎的輸出或解釋,然後它會在像“一公斤羽毛和一公斤鋼哪個重”這樣的問題上出錯。就像某種很…
**路易斯(42:03):**這是因為它沒有實際的理解。
**喬(42:05):**對,它沒有實際的直覺。我只有一個最後的問題。匹茲堡沒有很多像切邊科技公司。我知道CMU在歷史上一直是先進AI研究的堡壘。我記得有一次,Uber買下了整個機器人部門,當時正試圖做自動駕駛汽車。但是,當涉及到招聘人才時,而且已經很少見了,與總部設在匹茲堡相比,與總部設在灣區或其他地方相比,有什麼優勢和劣勢?
**路易斯(42:38):**是的,Duolingo從一開始就總部設在匹茲堡。我們喜歡待在那裏。有好的和壞的地方。我的意思是,顯然一個好處是靠近卡內基梅隆大學。卡內基梅隆培養了世界上一些最優秀的工程師,特別是與AI相關的。在像匹茲堡這樣的城市的另一個好處是… 有兩個好處。其中一個是人們不那麼容易離開工作。你知道,在像硅谷這樣的地方,人們每18個月就會換工作。我們的平均員工在這裏待的時間很長,這實際上是一個主要優勢,因為你不必重新培訓他們。他們真的知道如何做這份工作,因為他們已經做了七年了。所以這是一個優勢。
我認為我們另一個優勢是,在硅谷方面,通常有一兩家公司是硅谷的寵兒,每個人都想在那裏工作。而硅谷的寵兒每兩三年就會變一次。所有優秀的人才都會去那裏。匹茲堡的好消息是,這種時尚類型的事情不會發生。所以有時候……我們很幸運,因為現在我們的股票表現非常好。所以我們有點像是一個時尚公司,但也有過我們不是的時候。但我們仍然能夠招聘到非常優秀的人才。所以我認為這一點非常好。當然,另一方面,當然也有一些角色在匹茲堡很難招聘到人,特別是產品經理在匹茲堡很難招聘到。因此,因為這個原因,我們在紐約設有辦公室,並且我們互補。我們在紐約有一個相當大的辦公室,我們互補。
**Tracy (44:03):**好的。來自多鄰國的路易斯·範·安,非常感謝你參加《Odd Lots》。太棒了。
**Luis (44:08):**哦,謝謝。太棒了。
**Tracy (44:21):**喬,我喜歡那次對話。當路易斯談到的時候,我在想的是,AI不會取代你的工作,而是懂得如何使用AI的人會取代你的工作——我在想,就在我們錄製這個節目之前,你告訴我你用過—是Chat GPT還是Claude?—來學習我通常做的事情。
**Joe (44:40):**哦,是的。對於那些不知道的人,我們有一個每週的《Odd Lots》通訊,每週五發布。你應該去訂閲。而且特蕾西通常會給每週的一個嘉賓發送一封電子郵件,詢問他們推薦哪些書。你知道,人們喜歡讀書。然後她會進入MS Paint,然後把四本書的封面放在一起。
**Tracy (45:00):**我的西斯廷小教堂。
**Joe (45:00):**我這樣做是因為 Tracy 幾周前不在。我不像,我從來沒有學過 Photoshop 或者 MS Paint,所以就像—我很笨—就像把四張圖片放在一起的過程並不是我完全知道如何做的。所以我去找 Claude,我説,“我正在用 MS Paint 把四張書的圖片放在一起。請告訴我如何做。” 他一步步地指導我。我做到了,Tracy。你為我感到驕傲,對吧?
**Tracy (45:25):**我非常驕傲。我覺得有點諷刺的是,AI 使用的巔峯是教一個人如何使用 MS Paint,但沒關係。我接受。不,這段對話中有很多值得探討的地方。我想説的一件事,也許有點陳詞濫調,但似乎語言學習是許多自然語言和聊天機器人技術應用的基礎。因此,從一種純粹的語言或語言學角度來看是很有趣的。
**Joe (45:56):**是的,我覺得我們本可以和路易斯討論幾個小時關於語言理論本身,我覺得這個話題非常迷人,而我只會説一種語言。我曾經會説法語,所以我不知道是否告訴過你,但我在瑞士日內瓦讀了一個學期,我和一個只會説法語的家庭住在一起,我在去那之前從未説過一句法語。一個學期後,我回家,通過了我在那裏生活的四個月的大學要求。然後 20 年沒有再説法語,我全忘了。但是,我本來想説點什麼。我真的不知道。
**Tracy (46:33):**沒關係。我也説多種語言説得不好。
**Joe (46:36):**但你知道,我在想的另一件事是… Duolingo顯然在很久以前就存在了,任何人都沒有談論生成式人工智能或其他任何東西。你聽到的其中一件事,有點貶低的説法,就是有些公司會被稱為聊天GPT包裝器,對吧?基本上,他們只是拿GPT-4,無論最新的模型是什麼,然後在其上構建一些時髦的界面來執行特定任務。而Duolingo有趣的地方在於,它感覺像是反向的,或者説是按照相反的順序進行,他們已經有了這個極其受歡迎的語言學習應用程序,然後隨着時間的推移,他們會融入更多內容。所以,與其説是為了別人的技術而開始,他們已經有了受眾,已經有了這個東西,然後他們找到更多的方式,讓人工智能可以用來重新構建核心應用程序。
**Tracy (47:29):**是的,這是一個非常好的説法。還有就是所有這些技術的迭代性質。所以這個想法,你在訓練它—我知道,再次強調,這似乎是一個顯而易見的觀點。但是,我也沒有意識到到目前為止Duolingo的很多東西是多麼定製化的。而且這個想法是,如果你説一種語言,那麼你學習德語的方式將會完全不同於那些從小説其他語言長大的人。我對Duolingo這樣的東西可能擁有的數據量非常感興趣。我猜也許我們應該問問路易斯關於這個問題,還有其他的商業機會,比如授權那些數據或者,也許,我不知道,我想他們一度與Buzzfeed合作,CAPTCHA實際上是在翻譯新聞文章之類的。
**喬(48:19):**是的,本來會有類似的事情。我記得這個想法並沒有真正起飛,但是Buzzfeed的想法是將其新聞文章翻譯成西班牙語和其他語言,通過Duolingo用户學習這個過程。我忘記為什麼沒有成功,但是,絕對是這樣。
**特蕾西(48:35):**我也覺得有趣,在某種意義上,我們現在是AI正在獲取信息的來源,對吧?而且,所有那些分鐘,我肯定最終會累積成天數,通過CAPTCHA,這都是未經報酬的勞動,用來訓練我們未來的AI霸主。
**喬(48:56):**他提到他對去年暗示他們因為AI而裁員感到不滿。但他確實説有些人——他們是承包商,所以他們不是全職員工——但聽起來這是AI能夠完成工作的一個非常明顯的例子,即使他們是承包商,這些工作本來是由人類完成的。我對我讀到的大多數文章持懷疑態度,其中一家公司説,“哦,我們要削減所有這些勞動成本,我們要使用AI”,因為我更傾向於認為這往往是一個企業想要裁員並讓其聽起來像是他們在進步的幌子。但這裏似乎是一個實際的例子,其中某種形式的人力勞動不再需要,因為有了AI。
**特蕾西(49:41):**是的,AI最終會來追求我們所有人。我們就到這裏吧?
**喬(49:45):**就讓它在那裏吧。
關注路易斯 @luisvonahn