黃仁勳對話OpenAI創始人：AI的今天與未來_風聞

guan_16732553391787-为您精心奉上最新最全的元宇宙资讯03-24 15:00

2023-03-24

3月22日，英偉達公司公佈了其創始人兼CEO黃仁勳對話OpenAI聯合創始人兼首席科學家Ilya Sutskever的視頻。一位是帶來大規模算力的企業家，一位是促進人工智能飛躍的天才科學家，兩人的對話不僅充滿乾貨，也平實、真誠。面對同行甚至大眾的好奇，他們對現代AI的起源過程、ChatGPT的工作原理和GPT-4的特點一一進行了拆解。

——編者言

對話式機器人ChatGPT的誕生，令其開發商OpenAI成為家喻户曉的公司。3月22日，英偉達公司公佈了其創始人兼CEO黃仁勳對話OpenAI聯合創始人兼首席科學家Ilya Sutskever的視頻。

如今，OpenAI 可以説是整個 AI 領域最火的研究機構。憑藉強大的 GPT-4 以及與微軟必應、Office 等產品的融合，這家公司似乎要掀起一場生產力革命。

這一成就是由多方面的力量來驅動的，包括聰明的頭腦和強大的基礎設施。

在「聰明的頭腦」裏，Ilya Sutskever 頗具代表性。2012 年，他和他的導師 Geoffrey Hinton 以及同學 Alex Krizhevsky 一起，用深度神經網絡刷新了 ImageNet 的歷史記錄，拉開了卷積神經網絡統治計算機視覺的序幕，標誌着新一波人工智能浪潮的開始。2021 年，這個名為 AlexNet 的論文被引量突破 10 萬。

「為了加速訓練，我們用到了非飽和神經元和一個非常高效的 GPU 卷積操作實現。」Ilya Sutskever 等人在 AlexNet 的相關介紹中提到了這樣一條關鍵信息。他們還詳細説明了如何將他們的網絡映射到多個 GPU 上。從這時起，GPU 和神經網絡緊緊地綁定在一起。黃仁勳領導的英偉達自然也成了這波 AI 浪潮中不可或缺的一環。

2015 年，Ilya Sutskever 參與創辦了 OpenAI，並帶領這家公司一路向着 AI 大模型的方向前進。但隨着模型變得越來越大，訓練它們所需的算力也急劇增長。

「加速計算並非易事，2012 年，計算機視覺模型 AlexNet 動用了 GeForce GTX 580，每秒可處理 262 PetaFLOPS。該模型引發了 AI 技術的爆炸。十年之後，Transformer 出現了，GPT-3 動用了 323 ZettaFLOPS 的算力，是 AlexNet 的 100 萬倍，創造了 ChatGPT 這個震驚全世界的 AI。嶄新的計算平台出現了，AI 的 iPhone 時代已經來臨。」黃仁勳在 GPT 大會的 Keynote 中説道。在這次大會上，英偉達發佈了 ChatGPT 專用的 GPU，推理速度提升了 10 倍。

一路走來，Ilya Sutskever 和黃仁勳都是這波 AI 浪潮的見證者和重要推動者。在即將到來的「AI iPhone 時代」，兩人也必將扮演重要的領導者角色。

毫無疑問，隨着ChatGPT與GPT-4在全球範圍內的爆火，這也成為了這次談話的關注焦點，而除了GPT-4及其前身包括ChatGPT相關話題外，黃仁勳與Sutskever也聊到了深度神經網絡的能力、侷限性和內部運作方式，以及對未來AI發展的預測。

從網絡規模和計算規模還無人在意時做起

可能不少人一聽到Sutskever的名字最先想到的就是OpenAI及其相關的AI產品，但要知道，Sutskever的履歷可以追溯到吳恩達的博士後、Google Brain的研究科學家，以及Seq2Seq模型的合作開發者。

可以説，從一開始，深度學習就與Sutskever綁定在了一起。

在談及對深度學習的認識時，Sutskever表示，從現在來看，深度學習確實改變了世界。不過他個人的出發點更多是在於對AI存在的巨大影響潛力的直覺，對意識與人類體驗的濃厚興趣，以及認為AI的發展會幫助解答這些問題。

2002-03年期間，人們普遍認為學習是一件只有人類才能做到的事，計算機是無法學習的。而如果能讓計算機具有學習的能力，那將是AI領域一次重大的突破。

這也成了Sutskever正式進軍AI領域的契機。

於是Sutskever找到了同一所大學的Jeff Hinton。在他看來，Hinton所從事的神經網絡正是突破口，因為神經網絡的特性就在於能夠學習，可以自動編程的並行計算機。

而彼時並沒有人在意網絡規模和計算規模的重要性，人們訓練的神經網絡只有50個或100個，數百個的規模已經算大的了，一百萬的參數也被視為很龐大。

除此之外，他們還只能在沒有優化過的CPU代碼上跑程序，因為沒人懂BLAS，多用優化後的Matlab做一些實驗，比如用什麼樣的問題來提問比較好。

但問題是，這些都是很零散的實驗，無法真正推動技術進步。

構建面向計算機視覺的神經網絡

當時，Sutskever就察覺到，有監督學習才是未來前進的方向。

這不僅是一種直覺，也是無需爭辯的事實。在神經網絡足夠深且足夠大的基礎上，那麼它就有能力去解決一些有難度的任務。但人們還沒有專注在深且大的神經網絡上，甚至人們根本沒有把目光放在神經網絡上。

為了找到一個好的解決方案，就需要一個合適的大數據集以及大量的計算。

ImageNet就是那個數據。當時ImageNet是一個難度很高的數據集，但要訓練一個大的卷積神經網絡，就必須要有匹配的算力。

接下來GPU就該出場了。在Jeff Hinton的建議下，他們發現隨着ImageNet數據集的出現，卷積神經網絡是非常適合GPU的模型，所以能夠讓它變得很快，規模也就這麼越來越大了。

隨後更是直接大幅打破了計算機視覺的紀錄，而這不是基於以往方法的延續，關鍵是在於這個數據集本身的難度與範圍。

OpenAI：從100人到ChatGPT

在OpenAI初期，Sutskever坦言道，他們也不是完全清楚如何推動這個項目。

在2016年初，神經網絡沒有那麼發達，研究人員也比現在少很多。Sutskever回憶稱，當時公司只有100個人，大部分還都在谷歌或deepmind工作。

不過當時他們有兩個大的思路。

其中一個是通過壓縮進行無監督學習。2016年，無監督學習是機器學習中一個尚未解決的問題，沒有人知道怎麼實現。最近，壓縮也並不是人們通常會談到的話題，只是突然間大家突然意識到GPT實際上壓縮了訓練數據。

從數學意義上講，訓練這些自迴歸生成模型可以壓縮數據，並且直觀上也可以看到為什麼會起作用。如果數據被壓縮得足夠好，你就能提取其中存在的所有隱藏信息。這也直接導致了OpenAI對情緒神經元的相關研究。

同時，他們對相同的LSTM進行調整來預測亞馬遜評論的下一個字符時發現，如果你預測下一個字符足夠好，就會有一個神經元在LSTM內對應於它的情緒。這就很好地展示了無監督學習的效果，也驗證了下一個字符預測的想法。

但是要從哪裏得到無監督學習的數據呢？Sutskever表示，無監督學習的苦難之處不在於數據，更多關於為什麼要這麼做，以及意識到訓練神經網絡來預測下一個字符是值得追求和探索的。於此它會學習到一個可以理解的表徵。

另一個大的思路就是強化學習。Sutskever一直相信，更大的就是更好的（bigger is better）。在OpenAI，他們的一個目標就是找出規模擴展的正確途徑。

OpenAI完成的第一個真正的大型項目是實施戰略遊戲Dota 2。當時OpenAI訓練了一個強化學習的agent來與自己對抗，目標是達到一定水平能夠和人類玩家遊戲。

從Dota的強化學習轉變為人類反饋的強化學習與GPT產出技術基座結合，就成了如今的ChatGPT。

OpenAI是如何訓練一個大型神經網絡的

當訓練一個大型神經網絡來準確預測互聯網上不同文本中的下一個詞的時候，OpenAI所做的是學習一個世界模型。

這看上去像是隻在學習文本中的統計相關性，但實際上，學習這些統計相關性就可以把這些知識壓縮得非常好。神經網絡所學習的是生成文本的過程中的一些表述，這個文本實際上是世界的一個映射，因此神經網絡便能夠學習越來越多的角度來看待人類和社會。這些才是神經網絡真正在準確預測下一個詞的任務中學習到的東西。

同時，對下一個詞的預測越準確，還原度就越高，在這個過程中得到的對世界的分辨率就越高。這是預訓練階段的作用，但這並不能讓神經網絡表現出我們希望它表現出的行為。

一個語言模型真正要做到的是，如果我在互聯網上有一些隨機文本，以一些前綴或提示開始，它會補全什麼內容。

當然它也可以在互聯網上找到文本進行填充，但這就不是最初構想的那樣的，因此還需要額外的訓練，這就是微調、來自人類老師的強化學習，以及其他形式的AI協助可以發揮作用的地方。

但這不是教授新的知識，而是與它交流，向它傳達我們希望它變成什麼樣，其中也包括了邊界。這個過程做得越好，神經網絡就越有用越可靠，邊界的保真度也就越高。

再談GPT-4

ChatGPT成為用户增長最快的應用沒多久，GPT-4就正式釋出。

在談到兩者的區別時，Sutskever表示，GPT-4相較於ChatGPT在許多維度上都做到了相當大的改進。

ChatGPT與GPT-4之間最重要的區別在於在GPT-4的基礎上構建預測下一個字符具有更高的準確度。神經網絡越能預測文本中的下一個詞，它就越能理解文本。

比如，你讀了一本偵探小説，情節非常複雜，穿插了非常多的故事情節和人物，埋了很多神秘的線索。在書的最後一章，偵探收集了所有的線索，召集了所有人，説現在他將揭示誰是犯人，那個人就是……

這就是GPT-4能夠預測的東西。

人們都説，深度學習不會邏輯推理。但不管是這個例子還是GPT能做到的一些事，都展現出了一定程度的推理能力。

Sutskever對此回應稱，當我們在定義邏輯推理時，在進行下一步決策時如果你能夠以某種方式思考一下或許能得到一個更好的答案。而神經網絡能走多遠也尚待考察，OpenAI目前還沒有充分挖掘出它的潛力。

一些神經網絡其實已經具備了這類能力，但是大多都還不夠可靠。而可靠性是讓這些模型有用的最大阻礙，這也是當前模型的一大瓶頸。這不關乎模型是否具備特定的能力，而是具備多少能力。

Sutskever也表示，GPT-4發佈時並沒有內置的檢索功能，它只是一個能夠預測下一個詞的很好的工具，但可以説它完全具備這個能力，將檢索變得更好。

GPT-4還有一個顯著的改進就是對圖像的響應和處理。多模態學習在其中發揮了重要的作用，Sutskever説到，多模態有兩個維度，第一個在於多模態對神經網絡是有用處的，尤其是視覺；第二個在於除了文本學習外，從圖像中也可以學習到世界的知識。

人工智能的未來

再説到利用AI訓練AI時，Sutskever表示這一部分的數據不應該被忽視。

預測未來語言模型的發展是一件困難的事，但是在Sutskever看來，有充分理由相信這個領域會持續進步，AI也將在自己的能力邊界繼續用實力震驚人類。AI的可靠性是由是否可以被信任決定的，未來肯定會達到可被完全信賴的地步。

如果它不能完全理解，它也會通過提問來弄清楚，或者告訴你它不知道，這些正是AI可用性影響最大的領域，未來會有最大的進步。

現在就面臨這樣一個挑戰，你想讓一個神經網絡總結長文檔或獲取摘要，如何確定重要的細節沒有被忽視？如果一個要點顯然重要到每個讀者都會對此達成一致，那麼就可以承認神經網絡總結的內容是可靠的。

在神經網絡是否清楚地遵循用户意圖這一點上也同樣適用。

未來兩年會看到越來越多這樣的技術，讓這項技術變得越來越可靠。

文章綜合整理自網絡，僅供閲讀參考