黃仁勳對話Transformer七子:模型的未來在於數據質量,而非規模_風聞
乌鸦智能说-4小时前
在今年的GTC大會上,英偉達CEO黃仁勳邀請了Transformer的七位作者(Niki Parmar因故臨時未能出席)參與圓桌論壇的討論,這是Transformer團隊首次在公開場合集體亮相。
2017年,八位在谷歌工作的AI科學家發表了一篇名為《Attention Is All You Need》的論文,詳細描述了Transformer架構,開啓了生成式AI的新篇章。大熱的ChatGPT正是基於這一架構構建的。
在此次訪談中,他們將分享Transformer背後的創新故事,也討論瞭如何通過優化模型、提高效率和擴展應用範圍來不斷推動AI技術的邊界。
在Aidan Gomez看來,AI行業目前仍然停留在Transformer原理上,需要更多新的靈感來推動AI走向更高的平台。對於基礎模型的未來,Lukasz Kaiser認為,現在很多巨頭都熱衷於萬億token的訓練量,但高質量的模型更加取決於是否擁有高質量的數據。
Transformer團隊介紹:
Ashish Vaswani:現初創公司Essential AI的CEO。2014年在南加州大學獲得博士學位,並於2016年作為研究科學家加入谷歌大腦團隊,2021年底離開谷歌。
Noam Shazeer:現初創公司Character AI的CEO,2000 年底加入谷歌,直到 2021 年最終離職。
Jakob Uszkoreit:現Inceptive公司聯合創始人,2008年至2021年,Uszkoreit在谷歌工作。Uszkoreit於2021年離開谷歌,並與他人共同創立Inceptive。該公司主營業務為人工智能生命科學。
Llion Jones:現Sakana AI的創始人,本碩畢業於伯明翰大學,曾工作於Delcam、YouTube。他於2012年加入谷歌,擔任軟件工程師。
Aidan. Gomez:現Cohere創始人兼CEO,畢業於加拿大多倫多大學,Transformer論文發表時,他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。
Lukasz Kaiser:曾任法國國家科學研究中心研究員,現唯一一個現在仍是AI工程師,離開谷歌後加入OpenAI。
Lllia Polosukhin:現Near Protocal聯合創始人,Google TensorFlow 人工智能開源項目的主要代碼貢獻者,還曾任 Google 深度學習小組項目主管,帶隊負責核心搜索算法業務近 10 年,現主抓區塊鏈任務。
目錄:
1、背景:計算機的迭代和AI的興起
2、Transformer研發背後的故事
3、Attention is all you need論文創作
4、離開谷歌的初衷
5、未來的AI模型:在於質量,而非規模
/ 01 / 背景:計算機的迭代和AI的興起
黃仁勳:我等太久了,他們怎麼還不來(指Transformer八子),但是我相信他們一到,肯定會引發不小的騷動。那我先開始了,很高興見到在場的各位。六十年來,計算機都是一個樣子。我出生後的第二年,也就是1964年,現代計算機被稱作IBM系統360(中大型計算機,多為台式計算機的計算機操作系統)。中央處理器IOs子系統將計算機硬件和軟件進行多任務分離,整個計算機家族軟件強大的兼容性成為軟件工程師投資的主要盈利點。
不過在1964年,計算機並沒有引起什麼大的變動。直到上世紀八十年代末九十年代初,個人電腦PC的革命浪潮帶動了這項技術的高速發展,這也被稱為“計算機的民主化”,這一推動着計算機的邊際成本以年為單位指數級下降。以十年為一個週期,計算機成本可下降十倍,也就意味着每五年、每十年這速度再乘以100。直到20年,這個數字為10000。也就是説,嚴格意義上講,個人電腦PC革命的這二十年,整個計算機成本降低了10000倍。
計算機技術的發展比歷史上任何其他技術的發展來的都要重要。我們可以想象。假若有這麼一天,這世界上所有原本極其昂貴的事物成本都大大降低,而這個邊際成本降低的速度甚至能夠超過10000的平方,那麼到在座各位成年的時候,曾經一輛價值兩萬美元的車也不過只需要一美元了。這就像美國科技公司Uber(一家和滴滴一樣做共享單車的公司)在做的事一樣。但是伴隨着計算機成本的急速下降,直到停止的那一天,人類研發科技的想法也不會止步,那時候人們可能會研發出一種超級計算機。
這種超級加速的計算機起步的時候就像計算機一樣,不那麼容易上手,研發成本高,還需要一大批計算人員設計優化算法模型,這樣的模型工程十分棘手。不過我們也相信你,如果可能夠加速1%的代碼,也就能夠減少99%的運營時間。這個時候,開發商就可以設疑一大批toC的APP營運來賺取鉅額的商業利潤。就是這樣,我們一直挑戰極限,讓曾經看起來天方夜譚的事成為現實,讓那些看起來耗費巨大資源和成本的事變得簡單、高效、節能。這就是就是我剛剛講的加速計算(accelerated computing),也是英偉達自成立起一直在做的事。
接着,一個一個基於加速計算的應用就開始佔領市場。我們先着力的點是計算機圖形和視頻遊戲,於是人們就誤以為英偉達是一家遊戲公司。但是不論怎麼説,這也是我們的業務之一。看到了計算機圖形和遊戲背後的龐大的用户市場,這也是當時很多公司沒有注意到的事。不過,僅僅依靠市場也不足以推動影響整個時代的技術革命。長話短説,回到在2012年,我們的一位客户亞力克斯首次將英偉達GPU用於研發人工智能,這也激發了我們對AI的關注。幾年後,一些舉世震驚的事發生了,這些事也是當今生成式人工智能浪潮的前奏。
生成式人工智能的能力讓人瞠目結舌,不僅可以識別貓貓狗狗的圖像,甚至可以根據單詞自動生成相應的圖片。當然,你也可以輸入一些具象化的關鍵詞,比如,在海岸衝浪板上喝一杯MaiTai雞尾酒,或者帶着滑雪帽……不論你輸入什麼,生成式AI都可以自動生成相應匹配的圖片。現在,我們已經設計了一款能夠識別像素微粒、生成圖像的軟件,這款軟件甚至可以讀懂任何數據的內涵,這是難以置信的變革。
我將這稱為新型工業革命。在這場革命裏,我們創造出了以前從來不曾存在的東西。就像第二次工業革命用水力發電一樣,在這之前人們不曾想過,隨處可見的水竟也藴含着無人知曉的巨大價值,這些“魔法”引發了人們熟知的二次工業革命。用原有的基礎設施創造出新的高價值產品,在新的軟件架構上繼續研發設計新的軟件,也就是加速計算這個時代在做的事。當然,這些事首先是那批頂級科學家的活。不過在這之後,技術就會被大量推廣、複製、作用於生產。
一棟裝載了GPU機器的建築物(也就是AI系統)本質上就像一個發電機,我們向這個建築物裏傳輸被稱為“數據”的原材料,給這些數據能量,它又會生產出新的數據。輸入數據,輸出新數據,就是這個建築正在做的事。而那些輸出的數據震驚了整個世界,因為它們幾乎可以被裝進市面上所有現存的應用程序裏,包括醫療保健、藥物研發、交通運輸、汽車製造。所有的行業都會享受AI帶來的福利。一個全民都在使用AI的時代,不就是一個全新的工業革命嗎?
在接下來的十年,技術人員會不斷研發出在這個時代之前聞所未聞的新的產品、技術、基礎設施。不過,關於AI深度學習,社會上一向有一些流言和爭議。所以今天,我們請來了Transformer機器語言模型的設計者,同時也是論文《Attention is All You Need》的作者,一起討論這些話題。有請Ashish Vaswani(初創公司Essential AI的CEO)、Noam Shazeer(初創公司Character AI的CEO)、Jakob Uszkoreit(Inceptive公司聯合創始人)、Llion Jones(Sakana AI的創始人)、Aidan. Gomez(Cohere創始人兼CEO)、Lukasz Kaiser(唯一一個現在仍是AI工程師的)、Lllia Polosukhin(Near Protocal聯合創始人),Niki Parmar因有事不能前往。實際上他們從來沒有同時參加過同一個訪談。
遠程辦公已經成為了一種社會潮流,不過這並不能阻止科技創新發明。我們都知道Transformer對於AI行業的重要性。所有現有的發明、創新、AI應用都可以追溯到你們剛剛發佈Transformer的時候,以一種有序的方式從海量數據集(包括有序數列和空間數列)中進行學習,找到各數據組之間的關係和運行模式來設計算法模型是一件極具變革意義的事情,你們也是這方面的專家。
對話之前,我們先將一個規矩,意見相同也好,有分歧也好,不要打斷他人發言,也不要中途離席。今天的話題沒有什麼限制,暢所欲言。
/ 02/ Transformer研發背後的故事
黃仁勳:回到最初的話題,工程師需要靈感,需要問題驅動他們做新的發明。那麼當時你們在做Transformer的時候有遇到什麼困難嗎?
Lllia Polosukhin:每個人都會遇到各種各樣的問題,我們的團隊也一樣,都在致力於解決問題、回答問題。要我説,就去使用谷歌的產品,谷歌對模型延遲迴答的容忍度很低,你問什麼,模型就會回答什麼。如果你有成噸的文件,但是又想要快速找到需要的答案,就需要效率更高的模型。但是,當時的基礎模型和循環網絡根本無法做到這一點。所以出現了NENs(Normalizing Flows with Neural Networks,一類基於歸一化流量和自迴歸神經網絡的新型深度生成模型),NENs可以提高訓練數據的速度,訓練最先進的AI架構。以前需要一個字母一個字母識別的任務,現在已經可以通過NLP快速理解句子大意了。
Jakon Uszkoreit:實際上,我們已經有很簡單的架構了。打個比方,假設以n-gram為輸入數據,谷歌內部已經有了一個龐大的預訓練數據集和訓練規模,在特定問題上他們就訓練得更快。對於特定量的大規模的訓練數據谷歌總是完成的更快更好。
Noam Shazeer:早在2015年,我們就理解了AI裏的標定律(scaling laws)。訓練數據越豐富,模型越大,模型質量就越高,自然語言理解能力、預測下一個token的能力就越強。
這其實不難理解,在如此龐大的數據集上訓練,模型只會變得越來越先進、越來越聰明,甚至可以完成一百萬種不同的任務。以至於,巨頭們都在卷大模型,想讓自有模型token量越來越大,模型質量越來越高。
不過在RNN(Recurrent Neural Network,循環神經網絡)上,我們也遇到了一些挫折,可能也是最讓我們挫敗的事。因為RNN 在訓練過程中可能會出現梯度消失和爆炸問題,這使AI難以長時間學習和存儲信息。有些人也想用深度學習裏的卷積神經網絡(Convolutional Neural Networks)和注意力機制(Attention Mechanism)來優化提升RNN現存的問題。打個比方,RNN就像蒸汽機,Transformers就像內燃機(蒸汽機的熱效率較低,只有20%,內燃機的熱效率可達到46%)。我們當然可以用蒸汽機去完成工業革命時所有的任務,不過太慢了,成本也太高。內燃機會大大提升效率,不過現在,屬於內燃機的時代也過去了。我們期待的是電動汽車代替內燃機的時代。
黃仁勳:好的,現在我們這是在等待核聚變,對吧?
Ashish Vaswani:那是電動汽車之後的事情了,哈哈。
研發Transformer架構後,讓我刻骨銘心的教訓有兩個。第一個是我開始着手研究機器翻譯,讓我驚豔的是,優化AI模型的梯度下降(gradient descent)算法比我更“聰明”。我甚至不用學習任何機器語法規則,只想着讓梯度下降為我做好一切。第二個是可擴展的通用架構,這個架構在未來一定會佔據主導地位。現在人們關注Token,這世界上是一些計算機指令、動作。
有一天,token會模仿人類行為,將一切自動化。Transformer架構實際上就是我們討論的注意力機制(attention mechanism),用於NLP裏處理更多更復雜的數據,注意力機制可以讓梯度下降效率更高、更快。這裏也有一些物理學層面的問題。比如,矩陣乘法的時間複雜度,使用更先進的算法可以提高時間複雜度,尤其是在處理大型矩陣或高性能計算場景時。所以我們會不停添加一些新的指令規則,讓模型學習時組裝的梯度時優化算法,那些規則會比人類更聰明,就像所有的深度學習一樣。
我們正在以GPU為形狀構建一個AI模型,可以説就是超級計算機的雛形。
黃仁勳:現在,你們正在解決的問題是什麼?
Lukasz Kaiser:機器翻譯。
黃仁勳:這聽起來不簡單。
Lukasz Kaiser:五年前是這樣的,你必須收集大量的數據作為機器的學習資料,就算這樣,機器翻譯的出錯率也很高,在一個非常基礎的水平。到了現在,訓練這些模型根本就不要任何數據,機器只需要學習如何將這種語言翻譯成那種語言就好。
/ 03/ Attention is All You Need論文創作
黃仁勳:是什麼給了你們寫《Attention is All You Need》這篇論文的靈感?
Lllion Jones::我先想到了這個標題。在做一種類似於消融實驗(ablation study)的研究時,我們開始捨棄一些原有模型的碎片,想看看沒有了這些零件,模型會變成什麼樣。出乎意料的是,模型運行更快了。扔掉所有的卷積,效果反而變得會更好。這就是當時我的想法,也是標題的靈感來源。
Ashish Vaswani:有趣的是,這一切都是從零開始的。然後,我們向系統里加卷積等各種各樣的元素,不過之後這些都被推翻了。Multi-head attention(多頭注意力組件)是Transformer架構裏的核心組件,主要由多種自注意力機制組合而成。
黃仁勳:Transformer這個名字是怎麼想出來的?當時還有其他的備選方案嗎?為什麼會 叫Transformer呢?
Jakob Uszkoreit:因為Transformer本身就和大語言模型的運行原理有異曲同工之妙。LLM就是把一個數據組輸入通過轉化(transform)成另一種形式的數據組。幾乎所有的機器學習模式都被轉化(transform)了。所有的機器學習模式也因此發生了改變。實際上也不是所有人都同意使用這個名字,有人認為這個詞太簡單了。不過,除了Transformer,所有提案都被否決了,比如Cargo Net、Attention或者Convolution Attention。
Llion Jones:實際上我們最初是做機器翻譯的,不過後來我們發現我們做得更多的並非只是翻譯,而是轉化,轉化一切潛在的可能的事物變成另一種事物。實際上,當時我們也麼想到Transformer會這麼成功,生成圖像的效果好得讓人驚訝。
黃仁勳:這其實挺符合邏輯的,將圖像切塊並標記每個切塊的加載權限,實際上很早以前就有這樣的架構了呀。
Noam Shazeer:是的,所以當我們從張量到張量構建更高維度的矩陣時,我們將注意力放在瞭如何大規模擴大自迴歸模型(Auto-regressive models),不僅僅是語言,也包括在輸入端和輸出端的圖像、音頻、文本的組件。所以當Lukash説他的研究領域是翻譯時,簡直低估了自己。我們現在的想法是,把這些數據類型在一個統一的模型中。只需要一個模型就可以處理包含文本、圖像、音視頻各類型數據的輸入和輸出。
是的,不過這沒有用到自注意力機制。而且,要讓這樣的模型大規模研發部署,需要很長一段時間。Lukash的想法是將所有的學術數據集放在一起,通過重複的圖像轉文本、文本轉圖像、音頻轉文本、文本轉文本大規模反覆訓練。就是這樣“訓練一切”的想法推動着我們對web進行建模,這也就是OpenAI做的事。多模態大模型的理念在AI興起之初就一直存在,現在我們也很欣慰地看到它落地開花了。
黃仁勳:Transformer關於翻譯的想法真的很有趣。從圖像到文本,文本到文本,張量到張量。你們的想法覆蓋範圍極其廣泛,甚至可以用來研究生物學。
Aidan Gomez:嗯嗯,我們更樂意稱其為生物軟件,一種類似於計算機軟件的隱喻。開始是一個程序,之後再編碼成一些可以在GPU上運行的代碼。這本質上就像是生態網的運行,這裏也是需要一些行為規範的。
就像是細胞裏起到傳輸作用的蛋白質,我們的模型也是通過深度學習來進行傳輸轉譯的。一旦RNA分支進入人體細胞,經過轉錄就會變成蛋白質。所以,Transformer不僅僅想要將自然語言轉譯成計算機代碼,更重要的是有一天真的能進入實際的分子結構輔助藥物研發和蛋白質序列設計。到那時,可能我們也需要一個大的實驗濕室來設計研發這一切。
人類有大量公開課下載的基因組數據,這是極其寶貴的研究數據。不過,我們也需要專門的特定數據去設計專業模、研發產品。
在帕拉爾塔,我們部署了大量研究實驗室代碼的機器人和工作人員,包括一些二前生物學家。現在,我們自己也是這個行業的領頭羊,主要研發模型、設計分子。
黃仁勳:優化基礎模型在翻譯領域有了一些新的突破,你們也認為除了研發Transformer自己還為AI做了一些額外貢獻,主要表現在哪些方面?
Aidan Gomez:我們做了大量工作來優化加速,提升現有模型效率。不過困擾我的是我們做的這些工作其實跟之前沒什麼太大的區別,還是Transformer最初的那套原理。世界還是需要一些新的靈感,我相信在做所有人都希望能出現一些新的東西推動AI走向更高的平台。現在的很多設計都延續了六七年前的老路子,沒有什麼創新點。
Llion Janes:是的,很多人都問我AI模型的下一輪浪潮是什麼,實際上我能説只是這個行業在慢慢進步,這裏確實沒什麼顛覆性的東西。當然,這樣是遠遠不夠的,我們必須推出一些顛覆性的技術。但現在,我們一直在原有的模型上固步自封。我們想要輸入更長的上下文長度,想要多模態音視頻輸出,想要更快的token生成能力,這都需要更大的算力。
Jakob Uszkoreit:事實上我認為算力不是問題的關鍵,效率才是,優化現有模型提升效率是當務之急。當然,合理地分配算力也很重要。給不同的問題定級,分配不同的資源也會解決部分問題。
Llliya Polosukhin:舉個簡單的例子,2+2=4,把這個問題輸入現有模型,計算機需要使用一萬億參數解答這個問題。所以自適應計算(adaptive computation),如何在特定的問題上分配合適的計算量,也是接下來的着力點之一。
Lukasz Kaiser:一年前,我們想做的其實是token的進化升級,這不僅僅是線性升級,文本或代碼也會進化。我們不斷迭代、升級,模仿人類如何閲讀理解生成文本。這就是語言建模的複雜性,這也與智能生成文本、圖片有關。在這個過程中也需要不斷優化、升級現有模型。比如,那些知識是模型允許生成的,哪些知識是模型不允許生成的,類似於檢索模型Rag,用來對數據文本進行分類、定級,決定什麼樣的內容適合做什麼樣的推理運算。大模型當然知道如何做2+2的問題,不過這只是一個效率問題。
黃仁勳:嗯嗯,具體就是AI用計算機還是學習數學公式的問題了。不過,我很確定的一點是在座的各位研發的AI模型是肯定能夠學會用計算機解決數學問題的。
Noam Shazeer:事實上,我們團都已經有人做到了。嗯嗯,不過目前這個模型還太小了,無法將解決龐大的計算量。如果能夠研發出一個五億模型的參數,做一萬億次計算,一美元對應的還是一百萬個代幣,不過這會比之前的模型便宜一百倍。而比起巨型神經網絡上的高校計算,我們現在的模型就貴了一百倍。所以,現在的 當務之急一定是提高效率,用更少的資源做更多的事。
不過如何得到正確的反饋呢?如何讓研究人員參與這個過程確保。如果我們最終想建立一個通過視頻學習自我監督、自我優化的AI模型,界面(interface)至關重要。
/ 04/ 離開谷歌的初衷
黃仁勳:離開谷歌後,你們大多數都創立了自己的公司,可以簡單闡述一下自己的想法嗎?
Ashish Vaswani:我們最終的目標是設計一個對標人類效率的AI系統,通過AI視覺系統看我們在做什麼最終學會如何高效處理任務。他們會了解人類的目的意志,學習我們做事的方法,這最終也將改變我們與計算機交互的方式。
2021年 我決定離開谷歌很重要的一個原因就是因為一個超級智能AI是無法誕生在學術實驗室的。我們必須要走出去,接觸社會,讓這個世界對AI的註解推動我們研發更高質量的模型。我們需要與社會交互,讓來自社會的反饋使這些模型變得更加智能。學習需要更多的實地經驗,處於真空中的研究人員很難做到。
Noam Shazeer:我跟Ashish Vaswani想法一樣,也是想走出去。所以在2021年作為聯合創始人創立了Character AI。最讓我挫敗的一點就是AI技術如此強大,但這並沒有普及到社會的每個角落。這麼高效、簡便、多功能的工具,你們能體會這種煩躁的情緒嗎?
除非有10億人拿着AI做了成千上萬的事,我才能感到滿足。真的感謝上帝,讓我們研發瞭如此不可思議的技術。我的終極目標是用AI造福社會,造福世界上的每一個人,我們每個人都需要在這個過程中扮演一個角色。現在大部分人都是處於興趣使用AI,要麼是因為新鮮、要麼是情感陪伴或者純粹的喜歡。不過我想説的是AI真的很高效,而且也會快速發展,是時候不用AI自娛自樂了。
Jakob Uszkoreit:我説了很多 關於生物軟件的事,但更多是從個人層面上講的。2021年 ,我作為聯合創始人創立了Inceptive。AI真的可以幫助我們在實際生活生產中做很多有效率的事。新冠疫情時期,我第一個孩子出生了,我開始珍惜生命那種脆弱的美感。
幾周後,Alphafold2(DeepMind旗下研發蛋白質設計的人工智能公司)研發結果出來了,Alphafold1和Alphafold2最關鍵的區別就在於Alphafold2使用了Transformer架構,他們的算法模型效率就更高了。生物化學和AI聯合的時代已經到了。用AI進行藥物設計和蛋白質編程已經大大提升了科研質量和效率。
Llion Jones:我是最後一個離開的。之後我創立了一家名叫Sakana AI的公司,Sakana的意思是魚,而我們想做的是以自然界為靈感的AI公司。學習總會使人進步,工程設計也好、AI也好,無論你什麼時候離開,只要你一直在學,你總是在進步的,就像當時AI深度學習一樣。
英偉達給了我們巨大的計算量,我們可以用這些計算量做各種各樣的事,不僅僅是建立能夠感知理解人類行為的AI系統,我們也可以用其來探索正在從事的手工工程。我們也會做開源,進行模型合併,不過還有一些手頭上的研究要完成。我們將現在所有可用模型放在了Huggng Face上,然後使用了大量的計算量進行進化計算(evolutionary computation)來探索合並、堆疊圖層的方法。目前為止,這個項目做的很棒。
Aidan. Gomez:我想我創立 Cohere的原因與Noam Shazeer挺像的。AI技術舉世震驚,人機對話可以改變這個世界。我們工作方式、互動方式都會因此發生巨大的改變。不過,這裏也有一種微妙的失衡,就是在行業內部和行業外部存在着一種巨大的技術鴻溝。換句話説,我們都知道AI有多麼厲害了。
不過,更多的人還沒有明白這一點。我我想努力縮減這種認知上的鴻溝。不過我做這件事的方式可能跟Noam不太一樣,Cohere是一家面向企業的AI公司,這要是將我們設計的AI平台嵌入到企業產品中去,而不是直接面向消費者。我們想用這種方式讓社會接觸AI的手段更加簡便、成本更低。
Lukasz Kaiser:離開谷歌後我加入了OpenAI。在OpenAI,研究人員可以接觸大量的數據和計算量。當然,我也一直希望自己可以減去大量的算力,更多做計算本身。
Lllia Polosukhin:如今,軟件應用多的似乎要佔領整個世界,而機器學習正在統治軟件,而現在唯一的方法就是教會機器編碼,這樣就可以大規模自動化生成軟件並改變每個人的訪問方式。
如果在2017年,這可能只是紙上談兵,因為我們沒有那麼多的算了。不過現在就不一樣了,現在我們要做的並非大規模生產數據,而是要學會調配現有人員。這也是初創公司需要做的事,把產品推到用户面前,激勵用户使用,現在我們需要的是可編程貨幣。有了可編程貨幣,我們就能夠大規模地協調分配人員,所以我們創立了Near Protocol,一家2020年成立的專注於研發區塊鏈的初創公司。在區塊鏈這個領域我們擁有世界上最多的用户。版權作為一種十八世紀的技術已經落伍了,我們需要一種全新的技術激勵創作者,而唯一的方式就是使用編程貨幣和編程價值,也就是區塊鏈。這樣也可以創立一個良性循環的正循環系統。
/ 05 / 未來的AI模型:在於數據質量,而非規模
黃仁勳:可編程的人、可編程的蛋白質、可編程的資金……這聽起來很有趣。還有一個問題 ,現在的GPT模型的訓練數據集已經達到了10萬token的規模,下一代基礎模型會走向何方?有哪些創新點?
Lllia Polosukhin:與用户的交互。我們需要大量的平台,同時也需要大量的資金讓這些模型變得更加智能。
黃仁勳:如何才能設計出那樣優質的讓每個人都想使用的預訓練模型?在這個模型裏,用户間可以相互交流嗎?
Lllia Polosukhin:通過強化學習和其他集成數據生成技術。
Llion Jones:下一個更重要的方向是訓練AI的推理和自主決策能力,現在大部分的機器訓練和人機交互還是人工手動輸入指令的,我們現在需要做的是訓練機器強大的推理能力。
Jakob Uszkoreit:另一種取向是模型應該生產出人類世界的商品,也就是人們想要消費的東西,而在這之前機器必須接受所有刺激人類消費慾望的訓練和指令。在那時,所有音視頻等三維世界觀察世界的信息都由AI自動化完成。
Lukasz Kaiser:是的,就像是用人的思維方式進行思考。只需要小規模的數據就可以得到像樣的AI系統。因為AI的推理能力越強,所需要的數據訓練量就越少,因為那時的AI更加智能了,可以自己檢索信息、生成信息、進行規劃。
但在那時,用於訓練的數據質量會更加重要,因為這涉及到人機交互。現在很多巨頭都熱衷於萬億token的訓練量,但是高質量的模型從某種意義上需要的是更加高質量的數據。而同時,我們也需要給貢獻這些數據的人一些相應的激勵措施。
Ashish Vaswani:最好的自動化算法是什麼?是將真實世界的任務分解成不同的內容。我們的模型也非常重要幫助我們獲取數據,觀察數據是否處於正確位置。一方面,它幫助我們關注數據;另一方面,這樣的數據為我們提供了優質的模型來完成抽象任務。因此,我們認為對這一進展的衡量,也是創意的一種方式,是科學發展的一種方式,也是我們自動化發展的一種方式。
黃仁勳:是的,沒有良好的衡量體系,就不會有出色的工程。
Illia Polosukhin:沒有人能夠提前預知自己已經走到了哪一步。實際上,我們希望獲取足夠的數據和信息,進行合理的推理。比如,如果你有六步,但實際上你可以通過五步進行推理來跳過一步。有時候你不需要六步,有時候你需要更多步驟,那麼你要如何復現這樣的場景?你從Token進一步發展需要什麼呢?
Lukasz Kaiser:要設計現這樣的大模型非常複雜。系統雖然會不斷進步,但從本質上講,我們需要設計一種方法。人類是善於設計的生物,在人類歷史中,我們不斷重現成功的場景。
黃仁勳:感謝各位參加這次交流,非常感謝!
