因為算力不夠,ChatGPT沒有出現在中國,為什麼算力不夠?_風聞
托卡马克之冠-自由撰稿人-不首先使用种族歧视和双重标准04-12 13:40
國內人工智能的問題是卡在算力上。
國內在人工智能這塊的嗅覺並不差,當年深度學習之父,AI訓練大綱反向傳播算法的發明人喬佛雷·辛頓曾經接到過來自百度的合作邀請,這個邀請要先於谷歌,谷歌是在百度發出邀約後才入的局,此後百度和谷歌雙方競拍辛頓和自己的兩個學生成立的皮包公司(本質上是競相出價邀請辛頓與自己合作)時,百度的出價也一直高於谷歌。
後來辛頓還是選擇與谷歌合作了,儘管百度出價更高。
對此,辛頓的解釋是“我們是學者,不是商人,學者只忠於自己的創意和思維,而不是任何其他東西”。
這絕不是得了便宜之後的賣乖,更不是賣弄自己的格局。
要知道辛頓從事神經網絡研究已經幾十年了,他搞出當代人工智能訓練方法的基礎大綱,反向傳播算法的時候是80年代,距離現在40多年了,由於指令存儲式計算機幾十年來的飛速發展和廣泛應用,再加上電子工業水平不足以支撐神經網絡的需要,神經網絡作為和指令存儲式計算機並列的一條技術路線,幾十年來是飽受冷眼的,是長期被視為一條失敗的技術路線的,60年代馬文·明斯基關於神經網絡的著作《感知機》出版之後,神經網絡一度被視為不可能的技術路線,當時你要是説你是搞感知機的(神經網絡早年也被稱為感知機),其它人看你的眼神大概就和你説自己是搞永動機的差不多。
辛頓早就坐了幾十年的冷板凳了,他要是真的圖錢,憑他的學術水平,去搞指令存儲式計算機的研究早就發大財了。
所以這句話是真心的。
至於為什麼他認為去美國工作才能忠於自己的創意和思維,而不是來中國,這才是真正值得深挖的東西。
辛頓和他的兩個學生在2018年因為對人工智能的傑出貢獻而榮獲圖靈獎,其中一個學生叫伊利亞·薩特斯基夫,他在谷歌工作一段世界後,於2015年被馬斯克邀請,成為OpenAI的創始人之一,2019年,OpenAI用gpt在Dota2中擊敗人類世界冠軍,隨後微軟追加投資100億美元。
後來的事情你們都知道了。
然後話又説回來了,為什麼是卡在算力上?
先説一下,人工智能所使用的各種數學方法和基本概念不是什麼最近幾十年才出現的新生事物,計算機之父馮·諾伊曼當年就曾經慎重比較過指令存儲式計算機和感知機兩條技術路線,是當時的電子工業實在是不行,才選擇的後者。
用於AI畫色圖和人臉識別的卷積神經網絡,用於模擬人類大腦記憶功能從而防止把老婆和老婆餅,白菜和翡翠玉白菜搞混的霍普菲爾德神經網絡,用於訓練AI的反向傳播算法,這些東西更是比在座各位大多數人歲數都要大的老玩意了,它們都出現於80年代,不是什麼新鮮事物。
那麼技術路徑已經有了,基本方法也已經完善,可為什麼到現在人工智能才真正開始爆發呢?
倆字:算力。
舉個最簡單的例子,因為深度優化了卷積神經網絡,併發明瞭卷積神經網絡一詞,而和辛頓一起獲得2018年圖靈獎的法國人楊立昆,他在80年代研究卷積神經網絡的時候,對自己的作品LeCun進行訓練時,總共只用了6萬個學習參數。
這個數字在我們今天看來簡直不值一提,畢竟現在人工智能的參數都是百億級別的,但在當時看來已經非常不可思議,近乎天文數字了。
為啥會這樣呢?不就是因為電子工業拉胯,算力跟不上嗎?
為啥馮·諾伊曼在技術路徑選擇時選擇了指令存儲式計算機(也就是你我現在用的電腦和手機),而不是神經網絡,為啥早年你説自己在研究神經網絡,其它人會用看永動機的眼神來看你?主要原因之一就是在那個電子工業主要依靠電子管和磁帶轉盤來運行的時代,神經網絡所需要的設備體積之大,因為神經網絡需要數以億計的處理單元,每一個處理單元之間還要互相連接,你能想象數以億計的電子管用線纜接在一起,周圍還到處都是磁帶轉盤在旋轉是什麼場面嗎?
所以馮·諾伊曼才選擇了對設備體積要求較低,功耗較低的指令存儲式計算機,可就算是這樣,當年的指令存儲式計算機也是動輒要用幾層樓才能裝得下的,而算力只有幾千次。
因此,制約人工智能的主要矛盾,不是模型,而是算力。
這可以從美國的封鎖方法和國內的人工智能現狀就能看出來,美國沒有封鎖數據出境,也沒有封鎖學術交流,而是禁止出口高品質顯卡,而國內在chatgpt爆火之後推出了一大堆人工智能模型,都不説百度的文心一言這種比較知名的產品了,炒股的同花順都整了一個你知道嗎?
80年代之所以集中出現了一連串的人工智能學術成果,就是因為當時電子工業有了進步,大規模集成電路逐步成熟並投入引用,在較小體積的設備上以較低功耗運轉大量處理單元成為可能,神經網絡實用化俱備了可能性,於是學術界才重新投入對神經網絡的研究,於是學術成果才集中出現的。
事情的解決,要一直等到1993年,一個叫黃仁勳的遊戲宅在加州創立了一家叫英偉達的公司,而根據黃仁勳在斯坦福大學接受採訪時的説法,他當時創立這家公司的目的就是為了“讓原本只有最昂貴的工作站才能用得起的圖形處理器來為遊戲顯示提供支持”。
説白了就是為了玩。
而當他對他的父母説自己要做遊戲設備時,他父母的反應非常中國式,非常做題家,非常具有中國特色成功觀——“做遊戲?你咋不去找份正經工作?”
還能説什麼呢?還有什麼可説的呢?
做題做題,做甚鳥題,君以此興,必以此亡。
後來的事情就很簡單了,在無數玩家對遊戲體驗的極致追求下,算力設備的產業技術水平一日千里,甚至因為黃仁勳升級換代不給力而痛罵其是繼英特爾和尼康之後又一牙膏廠,擠一點出來一點。
直到2020年5月14日,黃仁勳在GTC2020演講上公佈了英偉達最新的Ampere架構,該架構上有整整540億個晶體管,人類用不着數以億計的電子管了,同時,英偉達為了進一步提高玩家的遊戲體驗,特別是保證高畫質下的高幀數和遊戲運行的流暢性,還引入了原本只用於神經網絡訓練的深度學習算法,讓深度學習超級採樣技術在顯卡上徹底成熟。
原本用於指令式計算機的設備在此刻與自己的雙生姐妹神經網絡攜手並肩,這是兩個美妙靈魂的和諧共舞。
微軟採購了1萬片使用Ampere架構的A100顯卡。
後面的事情你們也知道了。
居然還有人説是礦老闆帶來了顯卡發展?貪天之功以為己有。中本聰在2008年才發表區塊鏈技術,2009年才整出比特幣來,2010年有人用10000BTC買了兩個披薩,這才開始具有商業價值,等到因為比特幣暴漲,礦老闆開始成規模出現和我們臭打遊戲的搶顯卡已經是2017年之後的事情了。
然後還礦難了,鹹魚上各種“女生自用二手99新”的女騎士一堆一堆的。
而且區塊鏈本身也和神經網絡一樣,是一種需要有足夠算力加持才能落地實現的技術,而算力進步的前三個饅頭都是臭打遊戲的硬啃下來的,第四個饅頭人工智能一口,玩家一口,礦難前的礦老闆一小口,就這都能説礦老闆帶來顯卡發展?臉都不要了。
沒玩家撐着,英偉達從1993年到2017年這幾十年喝西北風去?
哪怕是人工智能高速發展的當下,遊戲玩家依然貢獻了英偉達超過40%以上的營收,算力爆發的半壁江山,從來就有我們玩家一份,妄圖抹殺遊戲對人類文明進步做出的貢獻,屬於人為捏造歷史記憶,修改共識,篡改史書的卑劣行徑。
於是下一個問題就浮出水面了。
chatgpt為什麼沒有出現在中國?明明中國在百億參數級別的模型訓練上入局很早,眼光也不差,甚至願意砸更多的錢,各家公司也推出了一大堆亂七八糟的模型,這些模型使用的算法和技術和chatgpt也沒有本質差別,都是80年代那一波神經網絡學術成果大爆發的產物,但就是一個能打的都沒有呢?
因為算力不夠。
為什麼算力不夠?因為沒有我們的英偉達,沒有我們的台積電。
那為什麼沒有我們的英偉達和我們的台積電呢?
是中國的玩家不夠多?遊戲市場不夠廣闊?還是中國的玩家對遊戲體驗沒有極致追求,不喜歡8K144Hz全特效再加光線追蹤?
顯然也不是。
那麼原因究竟在哪兒呢?