學習了!AI教父Hinton最新萬字精彩訪談:直覺,AI創新的洞見和思考,未來_風聞
大眼联盟-52分钟前

在最近幾天的最新訪談裏, AI教父Geoffrey Hinton分享了他在人工智能研究、人才選拔以及與合作伙伴共事方面的獨到見解。這個採訪很有點形而上的意味,並不僅僅其他AI界訪談一樣停留在大模型的縮放定律或某些應用前景的話題上,而是在一個更高的角度談論大腦以及人工智能的本質,非常精彩,推薦給大家。
Web3天空之城,贊146B站傳送門:【精校】AI教父Hinton 5月最新訪談 | @SANA【中英】-嗶哩嗶哩】
https://b23.tv/0Tlu5W8
Hinton強調,在選拔人才時,直覺扮演着至關重要的角色。他以他的學生Ilya為例,表示Ilya的直覺和對事物的理解給他留下了深刻的印象。Hinton還回憶起他在卡內基梅隆大學的經歷,那裏的學生對未來充滿信心,這讓他感到十分新奇。
談到他對大腦工作方式的探索時,Hinton表示他從生理學到哲學,再到人工智能,一直在尋找答案。他提到了自己的幾位重要合作伙伴。通過與他們的合作,Hinton在研究玻爾茲曼機、探討大腦工作原理以及改變神經網絡中的連接權重等方面取得了重要進展,也對人工智能有了更深入的理解。
Hinton特別提到了他與Ilya在研究反向傳播算法時的合作。Ilya的直覺和解決問題的能力給他留下了深刻印象,他們的合作也為人工智能和神經科學研究帶來了新的突破。
規模和算法是科技進步的關鍵因素。他認為Ilya Sutskever關於系統規模足夠大就能更好運作的觀點已被證實。儘管Transformer等新想法很重要,但數據和計算規模才是決定性因素。
Hinton回顧了他與Ilya和James Martins在2011年發表的一篇論文,該論文使用字符級預測和維基百科數據進行實驗,結果令人驚訝。他解釋説,這種方法並非錯誤,而是一種有效的學習方式。事實上,Hinton是第一個使用嵌入和反向傳播的神經網絡語言模型的創造者。
他進一步闡述了這種模型的工作原理,即通過預測下一個符號來理解問題,這與傳統的自動完成功能有很大不同。Hinton認為,這種模型的理解方式與人類非常相似,儘管許多人認為這些模型只是在預測下一個符號,而沒有進行推理。
談到大型語言模型的工作原理時,Hinton解釋説它們通過尋找共同的結構來提高編碼效率。他以GPT-4回答問題為例,説明這種模型如何通過理解看似不同事物之間的類比來進行創新。
Hinton還提到了AlphaGo的例子,解釋了強化學習如何使其超越當前狀態。他認為,這可能是當前數據實驗室所缺少的組件,但並非完全必要。他還提到了一個實驗,即使訓練數據中有一半的答案是錯誤的,反向傳播也能將誤差降低到5%或更低,這表明大型神經網絡實際上具有超越訓練數據的能力。
為了提高這些模型的推理能力,Hinton提出了兩種可能的方法:一種是在模型之上添加啓發式方法,另一種是增加模型本身的規模。本文主要討論了大型語言模型的推理能力、多模態學習、語言與認知的關係以及早期使用GPU進行神經網絡訓練的直覺。
Hinton認為,隨着模型規模的擴大,其推理能力會得到提升。這種推理能力的提升類似於 AlphaGo 或 AlphaZero 的工作方式,它們通過蒙特卡羅推演來修改評估函數,從而提高推理精度。大型語言模型也應該開始通過推理來訓練,而不僅僅是模仿人類的行為。
在多模態學習方面,Hinton 認為引入圖像、視頻和聲音等多種模式將極大地改變模型的理解和推理能力,特別是在空間理解方面。多模態模型可以通過更多的數據和更少的語言來進行學習,這將使其在未來佔據主導地位。
在語言與認知的關係上,Hinton 提出了三種觀點:符號觀點、向量觀點和嵌入觀點。他認為,最合理的模型是將符號轉換成大向量,但保留符號的表面結構,這樣可以更好地理解和預測下一個符號。
Hinton 回顧了他在 2009 年提出使用 GPU 進行神經網絡訓練的早期直覺。他發現,使用 GPU 可以將運算速度提高 30 倍,這對於機器學習研究人員來説至關重要。他在 NIPS 會議上公開推薦了 NVIDIA 的 GPU,並向 NVIDIA 請求贊助,最終得到黃仁勳的支持。
Hinton 提出,模擬計算可以在較低的功率下運行大型語言模型,但每個硬件的特性都會有所不同,因此學習過程需要利用硬件的特定屬性。然而,這種方法的侷限性在於,當一個人去世後,他的大腦中的權重對其他人沒有用處。
相比之下,數字系統可以通過共享權重來提高效率,因為一旦有了權重,就可以在不同的計算機上覆制相同的計算過程。這種方式使得數字系統在知識共享方面遠勝於人類。
Hinton 還討論了神經科學的時間尺度問題,指出在大腦中,權重改變的時間尺度很多,這是我們的神經模型尚未實現的。大腦使用快速權重進行臨時記憶,而我們的模型由於需要處理大量不同的情況,所以無法實現這一點。
此外,Hinton 反駁了喬姆斯基的觀點,認為大腦並不需要所有的先天結構,而是可以通過學習從數據中獲取大量信息。這種觀點對於理解大腦的工作方式具有重要意義。
Hinton 探討了人工智能助手的可能性,認為如果助手具有自我反省的能力,那麼它們也可能有感覺。他還提出了一個新的感覺模型,即如果沒有限制我們會採取的行動,這就是感覺的真正含義。在 1973 年,Hinton 在愛丁堡見證了一個機器人的 “情感” 表現。這個機器人能夠組裝玩具車,但如果零件堆砌在一起,它會先將它們散落一地,然後再重新組裝。這種行為讓 Hinton 聯想到人類在面對不理解的情況時的反應。
Hinton 曾將人類和大規模語言模型 (LLM) 比作類比機器。他認為,他一生中最有影響力的類比是宗教信仰和符號處理信仰之間的類比。他認為,我們正在進行符號處理,但並非通過匹配符號,而是通過為符號提供嵌入向量,並使用這些嵌入向量組件之間的交互進行思考。
Hinton 和他的學生一起完成了一些最有意義的研究,這主要得益於他與學生的良好合作,以及他選擇優秀學生的能力。他選擇問題的方式是尋找每個人都同意但感覺不對的東西,然後研究它,看看他是否能詳細説明為什麼他認為它是錯的。
Hinton 認為,我們不使用快速權重的做法聽起來很可疑,我們只有兩個時間尺度。這完全是錯誤的,這根本不像大腦的工作方式。他認為我們將不得不擁有更多的時間尺度。他相信大腦會獲得梯度。但是大腦是如何獲得梯度的?這是一個懸而未決的大問題。
Hinton 認為他對玻爾茲曼機的看法是錯誤的,但他很高興自己花了很長時間研究它。關於如何獲得梯度,有比反向傳播更漂亮的理論。但他認為事實並非如此。
Hinton 覺得科學家應該做一些對社會有益的事情,但實際上這並不是進行最佳研究的方式。當好奇心驅使時,人們會進行最好的研究。最近,他意識到這些東西既能帶來很多好處,也能帶來很多壞處,他更加擔心它們對社會的影響。但這不是他的動機。他只是想了解,大腦究竟是如何學習做事的?這正是他想要知道的。
Hinton 認為醫療保健是最有前途的應用領域,因為社會對醫療保健的需求幾乎無窮無盡。人工智能的發展可能會帶來更多的醫療保健需求。新的工程項目和新材料的開發,如改進太陽能電池板或超導性能的材料,也將產生巨大影響。然而,他擔憂有人可能會利用這些技術進行惡意行為,如製造殺人機器人、操縱輿論或進行大規模監控。
Hinton 認為人工智能助手會大大提高研究效率。在人才選拔方面,他依賴直覺,他認為優秀的學生並不只有一種類型,我們需要的是各種不同類型的研究生。
-以下是全部訪談的 Web3天空之城 書面整理版-
主持人
您是否曾經思考過如何選拔人才?或者,這對您來説主要是依賴直覺?比如,當Ilya出現後,您就會立即想到,他是個聰明人,我們應該一起合作。或者,您對此進行了深思熟慮?
Hinton:
我記得我第一次從英國來到卡內基梅隆大學的情景。在英國的一個研究單位,到了六點鐘,大家都會去酒吧喝酒。然而,在卡內基梅隆大學,我記得我剛到那裏幾個星期後的一個星期六晚上,我還沒有朋友,也不知道該做什麼。於是,我決定去實驗室做一些編程,因為我有一台Lisp機器,你不能在家裏編程。所以我在星期六晚上九點左右去了實驗室,那裏人山人海,所有的學生都在那裏。他們之所以在那裏,是因為他們所研究的是未來,他們都相信,他們接下來所做的事情將改變計算機科學的進程。這與英格蘭的情況完全不同,所以這對我來説非常新鮮。
讓我回到最初的問題,當Geoff在劍橋試圖瞭解大腦的時候,那是什麼樣的感覺?
那是非常令人失望的。所以我學了生理學。在夏季學期,他們要教我們大腦是如何工作的,他們教我們的只是神經元如何傳導動作電位。這很有趣,但它並沒有告訴你大腦是如何工作的,所以這非常令人失望。然後我轉到哲學,我想也許他們會告訴我們思維是如何運作的,這同樣令人失望。我最終去了愛丁堡做人工智能,那更有趣,至少你可以模擬事物,所以你可以測試理論。
你還記得是什麼讓你對人工智能感興趣嗎?是一篇論文嗎?還是某個特定的人向你介紹了這些想法?
我想那是我讀過的唐納德·赫布寫的一本書,這本書對我影響很大。他對如何學習神經網絡中的連接強度非常感興趣。我早期也讀過約翰·馮·諾依曼的一本書,他對大腦如何計算非常感興趣,以及它與普通計算機有何不同。
您是否確信這些想法會在那時實現?或者,您在愛丁堡時的直覺是什麼?
在我看來,大腦必須有一種學習方式,顯然,這不是通過將各種東西編入其中,然後使用邏輯推理規則。在我看來,這從一開始就很瘋狂。所以我們必須弄清楚大腦如何學會修改神經網絡中的連接,這樣它就可以做複雜的事情。馮·諾依曼相信這一點,圖靈也相信這一點。因此,儘管馮·諾依曼和圖靈都非常擅長邏輯,但他們並不相信這種合乎邏輯的方法。
您在研究神經科學思想方面是如何分工的?並且只做看起來對AI來説很好的算法。你早期獲得了多少靈感?
因此,我從未深入研究過神經科學。我總是受到我所學習的關於大腦工作方式的啓示。大腦中有許多神經元,它們執行相對簡單的操作。這些神經元是非線性的,但它們會收集輸入,對輸入進行加權,然後輸出取決於加權輸入的結果。問題在於,你如何改變這些權重以使整個系統正常運作?這似乎是一個相當簡單的問題。
你還記得當時的合作伙伴嗎?
我在卡內基梅隆大學的主要合作伙伴實際上是來自卡內基梅隆大學以外的人。我與約翰霍普金斯大學巴爾的摩分校的Terry Sinofsky有很多交流。大約每月一次,他或我都會開車去匹茲堡,那裏距離約250英里。我們會一起度過一個週末,研究玻爾茲曼機。這是一次美妙的合作,我們都相信這就是大腦的工作方式。這是我做過的最令人興奮的研究。雖然有很多技術成果都非常有趣,但我認為這並不是大腦的工作方式。
我還與非常優秀的統計學家Peter Brown進行了非常好的合作。他在IBM從事語音識別工作,然後作為一名更成熟的學生來到卡內基梅隆大學攻讀博士學位。但他已經知道很多了。他教了我很多關於演講的知識,事實上,他還教了我隱馬爾可夫模型。我認為我從他身上學到的東西比他從我身上學到的東西多。這就是你想要的那種學生。當他教我隱馬爾可夫模型時,我正在用隱藏層做反向傳播。只是那時它們不叫隱藏層。我認為他們在隱馬爾可夫模型中使用的名稱對於你不知道它們在做什麼的變量來説是一個很好的名字。這就是神經網絡中隱藏層名稱的由來。我和彼得認為這是神經網絡中隱藏層的一個好名字。但我從彼得那裏學到了很多關於語言的知識。
讓我們回到伊利亞出現在你辦公室的那一天。
我當時在辦公室,可能是星期天,我想我正在編程。然後有人敲門,不是普通的敲門聲,而是有點緊急的敲門聲。所以我去開門,這就是那個年輕學生。他説他夏天會做炸薯條,但他更願意在我的實驗室工作。所以我説,好吧,你為什麼不約個時間,然後我們再聊聊呢?於是Ilya説,現在怎麼樣?這就是Ilya的性格。
於是我們聊了一會兒。我給了他一篇關於反向傳播的《自然》論文。我們一週後又開了一次會。他回來後説,我不明白。我非常失望。我想,他看起來像個聰明人,但這只是鏈式法則,這並不難理解。他表示:“不,不,我明白你的意思。我只是不明白為什麼我們不將梯度交給一個合理的函數優化器。” 這是我們花了好幾年時間去思考的問題。Ilya一直都是這樣,他對事物的直覺總是很好。
你認為是什麼讓Ilya有了這些直覺?
我也不知道。我認為他總是為自己着想。他從小就對人工智能感興趣,顯然他擅長數學,但具體原因很難知道。
你們兩人的合作情況,以及各自扮演的角色是怎麼樣的?
這是一個很有趣的問題。我記得有一次我們試圖做一件複雜的事情,製作數據地圖。我有一種混合模型,所以你可以把同樣的相似之處做成兩張地圖。在一張地圖上,銀行可能接近貪婪,而在另一張地圖上,銀行可能接近河流。因為在一張地圖上,你不可能讓它接近兩者,因為河流和貪婪相距甚遠。所以我們會有混合地圖。我們在 MATLAB 中做這件事,這需要對代碼進行大量重組才能正確執行矩陣乘法。Ilya 對此感到厭煩,於是有一天他來找我説,他要為 MATLAB 編寫一個界面。所以我用這種不同的語言編程,然後我有一個可以將其轉換為 MATLAB 的東西。我告訴他,這需要你一個月的時間才能完成,我們必須繼續這個項目,不要被這個分散注意力。但Ilya説,沒關係,他今天早上就做到了。
這真是太不可思議了。這些年來,最大的轉變不一定只是算法,還有規模。這些年來你是如何看待這種規模的?
Ilya很早就有了這種直覺。所以Ilya總是説,只要把它做大一點,它就會工作得更好。我一直認為這是一種逃避,你也必須有新的想法。但事實證明,Ilya基本上是對的。新的想法很有幫助,像Transformer這樣的東西幫了大忙。但實際上,問題在於數據的規模和計算的規模。當時,我們不知道計算機的速度會提高十億倍,我們認為它們的速度可能會提高一百倍。我們試圖通過提出巧妙的想法來解決問題,如果我們擁有更大規模的數據和計算,這些想法就會自行解決。
大約在 2011 年,Ilya 和另一名研究生 James Martins 和我發表了一篇使用字符級預測的論文。因此,我們採用了維基百科,並嘗試預測下一個 HTML 字符。結果非常好,我們總是對它的效果感到驚訝。那是在 GPU 上使用一個花哨的優化器。我們從來不相信它理解了任何東西,但它看起來好像理解了。這可能讓人難以置信。
你能否告訴我們,這些模型是如何被訓練以預測下一個單詞的?為什麼這被視為錯誤的思考方式?
實際上,我並不認為這是錯誤的方式。事實上,我認為我是第一個使用嵌入和反向傳播的神經網絡語言模型的製作者。這個模型使用的是非常簡單的數據,只是三元組。它將每個符號轉換為嵌入,然後讓嵌入相互作用以預測下一個符號的嵌入。然後從中預測下一個符號。接着,它通過整個過程反向傳播來學習這些三元組。我已經證明了它可以進行概括
大約10年後,Yoshio Bengio使用了一個非常相似的網絡並展示了它可以處理真實文本。大約10年後,語言學家開始接受嵌入的概念。這是一個緩慢的過程。
我認為它不僅僅是預測下一個符號的原因是,那麼,預測下一個符號需要什麼?特別是如果你向我提問,然後答案的第一個詞是下一個符號,你必須理解這個問題。所以我認為通過預測下一個符號,它與傳統的自動完成功能有很大的不同。
傳統的自動完成功能會存儲一組三元組單詞。然後,如果你存儲了一對單詞,你會看到不同的單詞出現在第三位的頻率,這樣你就可以預測下一個符號。這就是大多數人認為的自動完成功能。但現在,情況已經不再是這樣了。要預測下一個符號,你必須理解所説的內容。所以我認為你通過讓它預測下一個符號來強迫它理解。我認為它的理解方式與我們非常相似。
很多人會告訴你這些東西和我們不一樣。他們只是預測下一個符號。他們不像我們一樣推理。但實際上,為了預測下一個符號,它必須進行一些推理。我們現在已經看到,如果你製造大型機器,而不放入任何特殊的東西來進行推理,它們已經可以進行一些推理。我認為隨着你把它們做得越來越大,它們將能夠進行越來越多的推理。
現在除了預測下一個符號外,還做了其他什麼嗎?
我認為這就是學習的方式。你在預測下一個視頻幀。你在預測下一個聲音。但我認為這是關於大腦如何學習的一個相當合理的理論。
那麼,是什麼使這些模型能夠學習如此廣泛的領域?
這些大型語言模型所做的是尋找共同的結構。通過找到共同的結構,它們可以使用共同的結構對事物進行編碼,這樣效率更高。
讓我給你舉個例子。如果你問GPT-4,為什麼堆肥堆像原子彈?大多數人都無法回答這個問題。大多數人沒有想過……他們認為原子彈和堆肥堆是非常不同的東西。但GPT-4會告訴你,能量尺度非常不同,時間尺度也非常不同。但相同的是,當堆肥堆變熱時,它會更快地產生熱量。當原子彈產生更多的中子時,其產生中子的速度也會隨之加快。這就引出了鏈式反應的概念。我相信大家都能理解,這些都是鏈式反應的表現形式。通過這種理解,所有的信息都被壓縮到權重中。如果這樣做,那麼它將能夠對我們尚未見過的數百種類比進行處理,儘管它已經看到了這些類比。這就是你能從中獲得創造力的地方,從看到這些看似非常不同的事物之間的類比中獲取。因此,我認為當GPT-4變得更大時,它將變得非常有創造力。我認為,認為它只是在重複它所學到的東西,只是將它已經學過的文本拼湊在一起,這種想法是完全錯誤的。它更有創造力。
你可能會説,它不僅會重複我們迄今為止開發的人類知識,而且還會超越這一點。我認為這是我們還未見過的事物。我們已經開始看到一些例子,但在很大程度上,我們仍然處於當前的科學水平。你認為什麼能讓它超越這一點呢?
我們在更有限的環境中已經看到了這一點。以AlphaGo為例,在與李世石的那場著名比賽中,AlphaGo在第37步做出了一個所有專家都認為一定是錯誤的舉動。但實際上後來他們意識到這是一步絕妙的舉動。所以這是在那個有限的領域內富有創造力的舉動。我認為隨着這些事情變得越來越大,我們會看到更多這樣的舉動。
AlphaGo的不同之處在於它使用了強化學習,這使它能夠超越當前狀態。所以它從模仿學習開始,觀察人類如何玩遊戲,然後通過自我對弈,發展到超越這一點。你認為這是當前數據實驗室缺少的組件嗎?
我認為這很可能是一個缺失的組件,是的。AlphaGo和AlphaZero的自我對弈是它能夠做出這些創造性舉動的重要原因。但我認為這不是完全必要的。很久以前我做過一個小實驗,訓練神經網絡識別手寫數字。我很喜歡這個例子,MNIST的例子。你給它訓練數據,其中一半的答案是錯誤的。問題是,它能學得多好?你把一半的答案弄錯一次,然後保持這種狀態。所以它不能通過只看同一個例子來平均化錯誤率,但有時答案正確,有時答案錯誤。當它看到那個例子時,一半的例子,當它看到這個例子時,答案總是錯的。所以訓練數據的誤差為50%。但是如果你訓練反向傳播,誤差會降到5%或更低。換句話説,從標記不良的數據中,它可以得到更好的結果。它可以看到訓練數據是錯誤的。這就是聰明的學生能比他們的導師更聰明的原因。他們的導師告訴他們所有這些東西,而對於導師告訴他們的一半,他們認為,不,是胡説八道,他們聽從另一半,然後他們最終比導師更聰明。因此,這些大型神經網絡實際上具有超越訓練數據的能力,這是大多數人未曾意識到的。
那麼,我們如何期望這些模型能夠獲得推理能力呢?一種可能的方法是在這些模型之上添加某種啓發式方法。目前,許多研究都在嘗試這種方法,即你有一個思維鏈,只需將其推理反饋到模型自身中。另一種可能的方法是在模型本身中增加規模。那麼,你對此有何看法?
我的直覺告訴我,隨着我們擴大這些模型的規模,它們的推理能力會得到提升。如果問人們這是如何工作的,大致上,我們有這些直覺,我們可以進行推理,我們用推理來糾正我們的直覺。當然,我們在推理過程中也會使用直覺。但如果推理的結論與我們的直覺相沖突,我們就會意識到需要改變我們的直覺。這與AlphaGo或AlphaZero的工作方式類似,它們有一個評估函數,只需看一眼棋盤,然後判斷“這對我來説有多好?”但是,當你進行蒙特卡羅推演時,你會得到一個更準確的想法,你可以修改你的評估函數。因此,你可以通過讓模型接受推理的結果來訓練它。
我認為這些大型語言模型必須開始這樣做,他們必須開始通過推理來訓練他們對下一步應該做什麼的原始直覺,並意識到這是不對的。這樣,他們就可以獲得更多的訓練數據,而不僅僅是模仿人們所做的。這正是AlphaGo能夠做出第37步創新的原因,它擁有更多的訓練數據,因為它使用推理來檢查下一步應該是什麼。
那麼,你對多模態有何看法?我們談到了這些類比,而這些類比往往遠遠超出了我們所能看到的範圍。模型發現的類比遠遠超出了人類的能力,可能是在我們永遠無法理解的抽象層面上。現在,當我們將圖像、視頻和聲音引入其中時,你認為這會如何改變模型?你認為它將如何改變它能夠進行的類比?
我認為這將帶來很大的改變。例如,我認為它將使模型更好地理解空間事物。僅從語言角度來看,很難理解一些空間事物。儘管值得注意的是,即使在成為多模態之前,GPT-4也能做到這一點。但是,當你讓模型成為多模態時,如果你讓它既能做視覺,又能伸手抓東西,如果它能拿起物體並翻轉它們等等,它就會更好地理解物體。因此,雖然你可以從語言中學到很多東西,但如果你是多模態的,學習起來會更容易。事實上,你需要的語言更少。YouTube上有很多關於預測下一幀的視頻,或者類似的東西。因此,我認為這些多模態模型顯然會佔據主導地位。你可以通過這種方式獲得更多數據,它們需要更少的語言。因此,從哲學角度來看,你可以僅從語言中學習出一個非常好的模型,但從多模態系統中學習要容易得多。
您如何看待這將對模型推理產生的影響?
例如,我認為這將使模型能夠更好地進行空間推理。如果你嘗試去拿起一個物體,你會得到各種有用的訓練數據,這將有助於推理出如果你拿起物體會發生什麼。
您認為是人類大腦進化得能很好地處理語言,還是語言進化得能很好地處理人類大腦?
我認為這是一個非常好的問題,是語言進化得能與大腦協同工作,還是大腦進化得能與語言協同工作。我認為兩者都發生了。我曾經認為我們可以在完全不需要語言的情況下進行大量的認知活動,但現在我對此有了一些改變。
那麼,我將給出三種不同的語言觀點以及它們與認知的關係。
一種觀點是老式的符號觀點,即認知包括使用某種經過清理的邏輯語言中的符號串,這些語言沒有歧義,並應用推理規則。這就是認知,只是對語言符號串之類的事物進行符號操作。這是一種極端觀點。
另一種極端觀點是,一旦你進入頭腦,它就全是向量。所以符號進來了,你把這些符號轉換成大向量,裏面的所有內容都是用大向量完成的,然後如果你想產生輸出,你又會生成符號。在2014年左右,機器翻譯中有一個點,當時人們使用循環神經網絡,單詞會不斷進入,它們會有一個隱藏狀態,它們會在這個隱藏狀態下不斷積累信息。因此,當它們讀完一個句子時,它們會得到一個大的隱藏向量,它捕捉到了該句子的含義,然後可以用來生成另一種語言的句子。這被稱為思維向量。這是對語言的第二種看法,你將語言轉換成一個與語言完全不同的大向量,這就是認知的全部內容。
但是還有第三種觀點,也是我現在所相信的,即你採用這些符號,將符號轉換成嵌入,並使用多層嵌入,這樣你就得到了這些非常豐富的嵌入。但是嵌入仍然與符號相關聯,從某種意義上説,你有一個用於這個符號的大向量,以及一個用於那個符號的大向量,這些向量相互作用產生下一個單詞的符號的向量。這就是理解。理解就是知道如何將符號轉換成這些向量,並知道向量的元素應該如何相互作用以預測下一個符號的向量。這就是理解,無論是在這些大型語言模型中,還是在我們的大腦中。這是一個介於兩者之間的例子。你繼續使用符號,但將它們解釋為這些大向量,這就是所有工作所在。所有的知識都在於你使用的向量以及這些向量的元素如何相互作用,而不是符號規則。但這並不是説你完全擺脱符號,而是説你將符號變成大向量,但你保留符號的表面結構。這就是這些模型的工作方式。在我看來,這也是人類思維更合理的模型。
您是最早想到使用GPU的人之一,我知道Jensen(黃仁勳)很喜歡你。早在2009年,你就告訴Jensen,這可能是訓練神經網絡的一個非常好的想法。讓我們回顧一下使用圖形處理單元(GPU)訓練神經網絡的早期直覺。
實際上,我記得在2006年,我有一位研究生,他是一位非常優秀的計算機視覺專家。我曾在一次會議上與他交談,他建議我考慮使用圖形處理卡,因為它們在矩陣乘法方面表現出色,而我所做的基本上都是矩陣乘法。我考慮了一會兒,然後我們開始研究那些配備四個GPU的Tesla系統。
最初,我們只是購買了遊戲用的GPU,發現它們使運算速度提高了30倍。然後我們購買了一個配備四個GPU的Tesla系統,並在此基礎上進行了一次演講,效果非常好。2009年,我在NIPS會議上發表了演講,我告訴在場的一千名機器學習研究人員,你們都應該去購買NVIDIA的GPU,因為它們是未來,你們需要它們來進行機器學習。然後我實際上給NVIDIA發了一封郵件,説我已經告訴一千名機器學習研究人員去購買你們的主板,你們能否免費給我一個?他們並沒有回覆。
但是,當我後來把這個故事告訴Jensen時,他免費給了我一個。
這真是太好了。我認為同樣有趣的是,GPU是如何隨着這個領域的發展而發展的。那麼,你認為我們在計算領域的下一步應該如何發展呢?
在我在谷歌的最後幾年裏,我一直在思考如何嘗試進行模擬計算。這樣,我們可以使用30瓦的功率(例如大腦),而不是使用一兆瓦的功率,並且可以在模擬硬件中運行這些大型語言模型。我從未讓它發揮作用,但我開始真正欣賞數字計算。
因此,如果你要使用這種低功耗的模擬計算,那麼每個硬件都會有所不同。這個想法是,學習將利用該硬件的特定屬性。這就是發生在人們身上的事情。我們所有人的大腦都是不同的,因此,我們不能將你大腦中的權重放入我的大腦中。硬件不同,各個神經元的精確屬性也不同。學習已經學會了利用所有這些。因此,我們終有一死,因為我腦中的權重對其他任何腦都毫無用處。當我死後,這些權重就毫無用處了。
我們可以很低效地將信息從一個人傳遞給另一個人,我寫句子,你想辦法改變你的權重,這樣你就會説同樣的話。這叫做提煉,但這是一種非常低效的知識交流方式。而對於數字系統,它們是不朽的,因為一旦你有了一些權重,你就可以扔掉計算機,只需將權重存儲在某個磁帶上,然後建造另一台計算機,把同樣的權重放進去。如果它是數字的,它可以計算與其他系統完全相同的東西。因此,數字系統能夠共享權重,這種方式的效率極高。假設你有一大批數字系統,它們各自進行微量的學習,從相同的權重開始,進行微量的學習,然後再次共享權重,這樣它們都能知道其他系統學到了什麼。然而,我們人類無法做到這一點,因此在知識共享方面,這些數字系統遠勝於我們。
許多已經在該領域實施的想法其實都是非常傳統的,這些想法在神經科學中一直存在。那麼,你認為還有哪些想法可以應用於我們正在開發的系統呢?
因此,我們仍需在變化的時間尺度上趕上神經科學。在幾乎所有的神經網絡中,都存在一個快速的活動變化時間尺度。因此,當輸入進來後,活動和嵌入向量都會發生變化,然後有一個緩慢的時間尺度會改變權重。這就是長期學習。你只有這兩個時間尺度。然而在大腦中,權重會改變的時間尺度很多。
例如,如果我説了一個意想不到的詞,比如“黃瓜”,五分鐘後,你戴上耳機,會聽到很多噪音,而且單詞非常模糊,但你會更好地識別“黃瓜”這個詞,因為我五分鐘前説過這個詞。那麼,大腦中的這些知識是如何存儲的呢?這些知識顯然是突觸的暫時變化,而不是神經元在重複“黃瓜”這個詞。你沒有足夠的神經元來做這件事。這是權重的暫時變化。你可以用暫時的權重變化做很多事情,我稱之為快速權重。
在我們的神經模型中,我們並不會這樣做,原因是如果對依賴於輸入數據的權重進行臨時更改,則無法同時處理大量不同的情況。目前,我們採用大量不同的字符串,將它們堆疊在一起,然後並行處理它們,因為這樣我們可以進行矩陣乘法,效率要高得多。而正是這種效率阻止了我們使用快速權重。但大腦顯然將快速權重用於臨時記憶。而且,你可以通過這種方式做各種我們目前不做的事情。我認為這是你必須學習的最重要的事情之一。我非常希望像Graphcore這樣的設備,如果它們採用順序方式並只進行在線學習,那麼它們就可以使用快速權重。但這還沒有奏效。我認為當人們使用電導作為權重時,它最終會奏效。
瞭解這些模型如何工作以及瞭解大腦如何工作對你的思維方式有何影響?
我認為有一個很大的影響,這是在一個相當抽象的層面上,那就是多年來,人們非常鄙視擁有一個大型隨機神經網絡,只要給它大量的訓練數據,它就會學會做複雜的事情的想法。如果你和統計學家或語言學家,或者大多數人工智能領域的人交談,他們會説,那只是一個白日夢。如果沒有某種先天知識,沒有很多架構限制,你就不可能學會真正複雜的事情。然而,事實證明這是完全錯誤的。你可以採用一個大型隨機神經網絡,你可以從數據中學習一大堆東西。因此,隨機梯度下降的想法,即使用梯度反覆調整權重,可以學習東西,而且可以學習非常複雜的東西,這些大型模型已經證實了這一點。這是對大腦理解的一個非常重要的觀點。大腦並不需要擁有所有的先天結構。現在,雖然大腦確實擁有許多先天結構,但對於易於學習的事物,它並不需要這些先天結構。
因此,喬姆斯基的觀點是,除非所有的知識都已經深深植根並且已經成熟,否則你無法學習任何像語言這樣複雜的事物。然而,這種觀點現在顯然是荒謬的。
我相信喬姆斯基會很高興你稱他的觀點是荒謬的。
實際上,我認為喬姆斯基的許多政治觀點非常明智。我總是很驚訝,為什麼一個在中東問題上有如此明智觀點的人在語言學方面會犯如此大的錯誤。
你認為什麼會讓這些模型更有效地模擬人類的意識?想象一下,如果你有一個你一生中與之交談過的人工智能助手。而不是像現在的ChatGPT那樣,刪除對話的記憶,每次都從頭開始。它有自我反省的能力。有一天,你去世了,其他人把這件事告訴了助手,你認為助手在那個時候會有感覺嗎?
是的,我認為他們也會有感覺。所以我認為,就像我們有這種感知的內在劇場模型一樣,我們也有一個感覺的內在劇場模型。這些是我能體驗到的東西,但其他人卻不能。我認為那個模型同樣是錯誤的。
所以我認為,假設我説,我想打加里的鼻子,我經常這樣做。讓我們試着從內心劇場的概念中抽象出這一點。我真正想告訴你的是,如果不是因為我的額葉受到抑制,我就會採取行動。所以當我們談論感覺時,我們實際上是在談論如果沒有限制我們會採取的行動。這就是感覺的真正含義,如果沒有限制我們會採取的行動。所以我認為你可以對感覺做出同樣的解釋,沒有理由説這些東西不能有感覺。
事實上,在1973年,我看到一個機器人有情感。在愛丁堡,他們有一個帶有兩個夾子的機器人,如果你把零件分開放在一塊綠色毛氈上,它可以組裝一輛玩具車。但是如果你把它們堆在一起,它的視力就不足以弄清楚發生了什麼。所以它把夾子放在一起,然後開始工作!它把它們敲碎,讓它們散落一地,然後又把它們拼湊在一起。如果你在一個人身上看到這一點,你會説,這是因為不理解情況,所以它與情況不符,所以它摧毀了情況。這很深刻。
在我們之前的談話中,你把人類和LLM描述為類比機器。你認為你一生中發現的最有力的類比是什麼?
在我的一生中?我想可能對我影響很大的一種弱類比是宗教信仰和符號處理信仰之間的類比。所以當我很小的時候,我來自一個無神論家庭,上學時就面臨着宗教信仰。在我看來,這簡直是無稽之談。即使我再次審視,我仍然認為這是無稽之談。
當我將符號處理視為對人們工作方式的解釋時,我認為這種觀點依然是無稽之談。我並不認為現在的觀點完全是無稽之談,因為我確信我們正在進行符號處理。我們只是通過將這些大的嵌入向量賦予符號來實現這一點。但我們實際上是在進行符號處理。
然而,這並不像人們想象的那樣,你匹配符號,一個符號的唯一屬性是它與另一個符號相同或不同。這是符號的唯一屬性。我們並不是這樣做的。我們使用上下文為符號提供嵌入向量,然後使用這些嵌入向量組件之間的交互進行思考。
然而,谷歌有一位非常優秀的研究員,名叫Fernando Pereira,他認為,我們確實在進行符號推理,我們的唯一符號就是自然語言。自然語言是一種符號語言,我們用它來推理。我現在相信這一點。
你已經進行了一些計算機科學史上最有意義的研究。你能給我們講講,比如,你是如何選擇合適的問題來解決的?
首先,我要糾正一下,我和我的學生一起完成了很多最有意義的研究。這主要得益於我與學生的良好合作,以及我選擇優秀學生的能力。在70年代、80年代、90年代和21世紀,很少有人研究神經網絡。因此,少數研究神經網絡的人可以挑選最優秀的學生。這是一件幸運的事。
我選擇問題的方式基本上是,當科學家談論他們的工作原理時,他們會有關於他們如何工作的理論,這可能與事實沒有太大關係。但我的理論是,我尋找的是每個人都同意但感覺不對的東西。只是有一點直覺,覺得它有問題。然後我研究它,看看我是否能詳細説明為什麼我認為它是錯的。也許我可以用一個小的計算機程序做一個小演示,顯示它不像你預期的那樣工作。
讓我舉一個例子。大多數人認為,如果你給神經網絡添加噪音,它就會變得更糟。例如,如果每次你進行訓練示例時,讓一半的神經元保持沉默,效果就會更糟。實際上,我們知道如果這樣做的話,它的概括效果會更好。你可以用一個簡單的例子來證明這一點。這就是計算機模擬的優點。
你可以證明,你的想法是,增加噪音會使情況變得更糟,而去掉一半的神經元會使它工作得更糟,短期內確實如此。但如果你這樣訓練它,最終它會工作得更好。你可以用一個小型計算機程序來證明這一點,然後你可以認真思考為什麼會這樣,以及它如何阻止複雜的協同適應。
但我認為這是我的工作方法。找到聽起來可疑的東西並對其進行研究,看看你是否可以給出一個簡單的演示來説明為什麼它是錯誤的。
現在有什麼聽起來可疑的呢?
我們不使用快速權重的做法聽起來很可疑,我們只有兩個時間尺度。這完全是錯誤的,這根本不像大腦的工作方式。從長遠來看,我認為我們將不得不擁有更多的時間尺度。這只是一個例子。
假設你今天有一羣學生,他們來找你,問你,我們之前討論過的漢明問題,你的領域中最重要的問題是什麼?你建議他們接下來接受和研究什麼?我們談到了推理、時間尺度。你會給他們什麼最高優先級的問題?
對於我來説,現在的問題和我過去30年來一直存在的問題是一樣的,那就是大腦會進行反向傳播嗎?我相信大腦會獲得梯度。如果你得不到梯度,你的學習效果就會比得到梯度時差很多。但是大腦是如何獲得梯度的?它是以某種方式實現某種近似版本的反向傳播,還是某種完全不同的技術?這是一個懸而未決的大問題。如果我繼續做研究,這就是我要研究的內容。
當你現在回顧你的職業生涯時,你會發現你在很多事情上都是對的。但是你錯在什麼地方,以至於你希望自己花更少的時間追求某個方向?好吧,這是兩個獨立的問題。一是你錯在什麼地方?二,你希望自己花更少的時間在這上面嗎?
我認為我對玻爾茲曼機的看法是錯誤的,我很高興我花了很長時間研究它。關於如何獲得梯度,有比反向傳播更漂亮的理論。反向傳播很普通,很明智,它只是一個鏈式法則。玻爾茲曼機非常聰明,它是一種獲取梯度的非常有趣的方法。我希望大腦也能這樣工作,但我認為事實並非如此。
您是否也花了很多時間想象這些系統開發後會發生什麼?您是否曾經想過,如果我們能讓這些系統運行良好,我們就能讓教育民主化,我們就能讓知識更容易獲得,我們可以解決醫學上的一些難題,或者對您來説,這更多的是瞭解大腦?
是的,我覺得科學家應該做一些對社會有益的事情,但實際上這並不是您進行最佳研究的方式。當好奇心驅使時,您會進行最好的研究。您只需要瞭解一些事情。最近,我意識到這些東西既能帶來很多好處,也能帶來很多壞處,我更加擔心它們對社會的影響。但這不是我的動機。我只是想了解,大腦究竟是如何學習做事的?這正是我想要知道的。但我有點失敗了。作為那次失敗的副作用,我們得到了一些不錯的工程。
是的,這對世界來説是一次很好的失敗。如果你從真正可能順利的事情的角度來看,你認為最有前途的應用是什麼?
我認為醫療保健顯然是一個很大的應用。對於醫療保健,社會可以吸收的醫療保健幾乎是無窮無盡的。以一位老年人為例,他們可能需要五位全職醫生的照顧。因此,當人工智能在某些領域的表現超過人類時,我們會期待它能在更多領域發揮更大的作用。這可能意味着我們需要更多的醫生。如果每個人都能擁有三位專屬的醫生,那將是極好的。我們有望實現這一目標,這也是醫療保健領域的優勢之一。
此外,新的工程項目和新材料的開發,例如用於改進太陽能電池板或超導性能的材料,或者僅僅是為了更深入地瞭解人體的運作機制,都將產生巨大的影響。這些都是積極的一面。然而,我擔心的是,有人可能會利用這些技術做出惡意的行為。利用人工智能製造殺人機器人,操縱輿論或進行大規模監控。這些都是非常令人擔憂的問題。
你是否擔心,如果我們放慢這個領域的發展速度,也會阻礙其積極的發展?
當然,我有這樣的擔憂。我認為這個領域的發展速度不太可能放慢,部分原因是它具有國際性。如果一個國家選擇放慢發展速度,其他國家並不會跟隨。因此,中國和美國之間顯然存在競爭,雙方都不會選擇放慢發展速度。有人提出我們應該放慢六個月的發展速度,但我並未簽署這一提議,因為我認為這種情況永遠不會發生。儘管如此,我可能應該簽署這一提議,因為即使這種情況永遠不會發生,它也提出了一個政治觀點。為了表達觀點,有時候我們需要提出一些無法實現的要求,這往往是一種有效的策略。但我不認為我們會放慢發展的步伐。
你認為有了這些人工智能助手,會對AI研究過程產生什麼影響?
我認為它們會大大提高研究效率。有了這些助手,AI研究將變得更加高效,它們不僅能幫助你編程,還能幫助你思考問題,甚至可能在解決方程式方面為你提供很大幫助。
你是否考慮過人才選拔的過程?這對你來説主要是依賴直覺嗎?例如,當Ilya出現在門口時,你會覺得他很聰明,於是決定與他一起工作。
在人才選拔方面,有時候你就是能感覺到。與Ilya交談不久後,我就覺得他非常聰明。再深入交談幾句,他的直覺、數學能力都非常出色,這讓我覺得他是理想的合作伙伴。
還有一次,我參加了一次NIPS會議。我們有一張海報,有人走過來,他開始詢問有關海報的問題。他提出的每一個問題都深入地揭示了我們的錯誤。五分鐘後,我就給他提供了一個博士後職位。那個人就是David McKay,他非常聰明。他去世了,這讓人感到非常遺憾,但他的才華是顯而易見的,你會希望能與他一起工作。然而,有時候,情況並不總是那麼明顯。我確實學到了一件事,那就是人與人是不同的。優秀的學生並不只有一種類型。有些學生可能沒有那麼有創造力,但他們在技術上非常強,能夠讓任何事情都成功。有些學生在技術上可能並不出色,但他們卻擁有極高的創造力。理想的情況下,我們希望找到的是既有技術實力又具備創造力的學生,但實際上,這樣的學生並不總是那麼容易找到。然而,我認為在實驗室環境中,我們需要的是各種不同類型的研究生。
我始終堅信我的直覺,有時候,你只需要和某人進行一次交談,他們就能理解你的意思。這就是我們所期待的。
你是否曾經思考過,為什麼有些人的直覺會更強呢?他們是否只是比其他人擁有更好的訓練數據?或者,你是如何培養自己的直覺的?
我認為,部分原因在於他們不容忍胡説八道。因此,這裏有一種獲取錯誤直覺的方式,那就是盲目相信你被告知的一切,這是非常危險的。你必須能夠……我認為有些人就是這樣做的。他們有一個理解現實的完整框架。當有人告訴他們某件事情時,他們會試圖弄清楚這件事如何融入他們的框架。如果無法融入,他們就會予以拒絕。這是一個非常好的策略。
那些試圖將他們被告知的一切都融入自己的框架的人,最終會得到一個非常模糊的框架,並且會相信一切。這是無效的。因此,我認為,對世界有強烈的看法,並試圖操縱傳入的事實以符合你的觀點是非常重要的。顯然,這可能會導致你陷入深刻的宗教信仰和致命的缺陷等等,就像我對玻爾茲曼機器的信仰一樣。但我認為這是正確的做法。如果你有良好的直覺,你應該相信它們。如果你的直覺不好,無論你做什麼都沒用,所以你最好相信它們。
這是一個非常好的觀點。
當你看到今天正在進行的研究類型時,你是否認為我們把所有的雞蛋都放在一個籃子裏,我們應該在這個領域更加多樣化我們的想法?或者你認為這是最有前途的方向?所以讓我們全力以赴。
我認為擁有大型模型並在多模態數據上訓練它們,即使只是為了預測下一個單詞,也是一種非常有前途的方法,我們應該全力以赴。顯然,現在有很多人在做這件事。有很多人似乎在做瘋狂的事情,這很好。但我認為大多數人走這條路是可以的,因為它效果很好。
你認為學習算法真的那麼重要嗎,還是隻是一個尺度?我們是否有數百萬種方法可以達到人類水平的智能,或者我們需要發現少數幾種?
是的,所以我不知道這個問題的答案,即特定的學習算法是否非常重要,或者是否有各種各樣的學習算法可以完成這項工作。但在我看來,反向傳播在某種意義上是正確的做法。獲得梯度以便更改參數使其更好地工作,這似乎是正確的做法,而且它取得了驚人的成功。可能還有其他學習算法,它們是獲得相同梯度的替代方法,或者將梯度轉移到其他東西上,並且也有效。我認為現在這一切都是開放的,也是一個非常有趣的問題,關於是否還有其他你可以嘗試和最大化的東西可以為你提供良好的系統,也許大腦這樣做是因為這樣更容易。但反向傳播在某種意義上是正確的做法,我們知道這樣做效果很好。
最後一個問題,當您回顧您幾十年的研究歷程,您最引以為豪的成就是什麼?是你學生的成就嗎?或者是您的研究成果?在您的整個職業生涯中,您最引以為豪的是什麼?
我的回答是玻爾茲曼機的學習算法。這個算法非常優雅,儘管在實踐中可能並不實用,但這是我和Terry共同開發的過程中最享受的事情,也是我最引以為豪的成就,即使它可能是錯誤的。
來源:Web3天空之城