FB最大模型訓練一輪電費就好幾百萬,機器學習的訓練成本難題_風聞
大数据文摘-大数据文摘官方账号-2020-07-02 14:02
大數據文摘出品
來源:economist
編譯:張大筆茹、Andy
對於計算工業,其最基本的一個假設是:數字處理會變得越來越便宜。並且根據著名的摩爾定律,可以預測在給定尺寸的芯片其上面能集成的電路個數(差不多相當於算力)通常每兩年會翻一番。
斯坦福人工智能研究所副所長克里斯托弗·曼寧表示,對於許多相對簡單的AI應用來言,上述假設意味着訓練成本的降低。但對於有些應用現在卻不是這樣的,特別是因為不斷增加的研究複雜性和競爭性,使得最前沿模型的訓練成本還在不斷上升。
曼寧用BERT模型來舉例,BERT是谷歌在18年提出的AI語言模型,已被用在谷歌搜索中。該模型有超過3.5億個內部參數,而且要大量數據來進行訓練,大概用了33億個大部分來自維基百科的單詞來訓練。接着曼寧説,現在看來維基百科都不是個多大的數據集了。“如果能用300億個單詞訓練一個系統,那它的性能肯定比用30億個單詞訓練的系統要好。”但更多的數據也意味着要用更多算力進行支持。
總部位於加州的OpenAI表示,隨着對機器學習興趣的不斷增加,對算力的需求從12年開始也急劇增加了。到18年,用於訓練大型模型的計算機算力相比之前已增長了30萬倍,並且還每三個半月翻一番(見圖)。比如,為訓練能在DOTA 2中擊敗人類的“OpenAI Five”系統,就幾乎將機器學習訓練擴展到了“前所未有的水平”,差不多用數千塊芯片訓練了十多個月。
關於所有這些訓練成本的確切數字,馬薩諸塞州阿默斯特大學的研究人員在19年發表的一篇論文中進行了估計,例如訓練某個版本的Transformer模型可能就要花費300萬美金。同時Facebook的AI負責人傑羅姆·佩森蒂表示,針對當前最大的模型進行一輪訓練光是電費可能就好幾百萬美金。
雲計算輔助
然而,對於Facebook這樣19年利潤就達185億美元的公司,這點錢不算什麼。但對於那些現金並不充足的公司就有點壓力山大了。著名風險投資公司Andreessen Horowitz (a16z)指出,許多AI初創公司都是從雲計算公司(如亞馬遜和微軟)來租用訓練所需的算力。而因此帶來的費用(有時佔收入的25%或更多)也是AI初創公司投資吸引力低於老式軟件公司的原因之一。3月,曼寧博士在斯坦福大學的同事們,包括著名的李飛飛,一起呼籲創建美國國家研究雲計算計劃,旨在幫助美國AI研究人員應對不斷增長的訓練費用。
對算力日益增長的需求同時也推動了芯片設計和AI專用計算設備的蓬勃發展。專用芯片的第一波浪潮是GPU的出現,其在90年代設計出來就是為了用於增強視頻遊戲圖形處理。而非常巧的是,GPU也非常適合現在AI應用中的數學計算。
相比起GPU現在還有更專業的芯片,各個公司也正在致力於研究這些芯片。去年12月,英特爾就以20億美元的價格收購了以色列公司Habana Labs;而成立於16年的英國公司Graphcore在2019年的估值為20億美元;最大的GPU製造商Nvidia等公司已對其芯片進行了重新設計來適應AI的計算需求;Google內部設計了自己的“張量處理單元”(TPU)芯片;而中國科技巨頭百度也已用上了自己的“崑崙”芯片。畢馬威的阿方索·馬龍認為,專用AI芯片的市場價值已達約100億美元的規模,而到2025年預估能達到800億美元。
Graphcore的創始人之一奈傑爾·圖恩表示:“計算機體系結構需要適應現在訓練處理數據的方式。” 對於AI運算其最基礎的特徵可以説就是“並行”,即將運算切分為很多小塊同時進行運算。例如,Graphcore的芯片有1,200多個單獨的數字運算核,能連接在一起提供更多的算力。而加州的創業公司Cerebras採取了更極端的方法,每個芯片佔用了整張硅片,每張硅片上能放置40萬左右個核。
除了並行,**其他優化也很重要。**Cerebras的創始人之一安德魯·費爾德曼指出,AI模型花費了大量時間來進行乘零操作。而因為這些計算結果總時零,所以其實很多都是不必要的,所以Cerebras的芯片就儘量避免執行這些運算。同時,Graphcore的Toon先生説,與許多任務不同,現在AI並不需要超精確的計算。這也意味着芯片設計人員能通過減少運算所需的精度來節省能耗。(而計算精度到底能降到什麼程度仍是個開放性問題。)
之後所有這些因素都能綜合起來獲得更大提升。Toon就認為Graphcore當前的芯片效率是GPU的10到50倍。
現在類似的創新變得越來越重要,因為對算力需求激增正趕上摩爾定律逐漸失效的時候。現在縮小芯片變得越來越困難,而且帶來的收益也越來越小。去年,Nvidia的創始人黃仁勳直言不諱地説:“摩爾定律失效了”。
量子解決方案和神經形態方案
因此,現在研究人員還在尋找更多的解決方法。其中一種是量子計算,利用量子力學的反直覺特性為某些類型的計算進行大幅提速。關於機器學習的一種思考角度是將它看作是一個優化問題,而計算機試圖在數百萬個變量中進行權衡從而求出儘可能最小值。微軟量子系統部門負責人Krysta Svore説,一種稱為格羅弗算法的量子計算技術具有巨大的提速潛力。
另一種想法是從生物學中獲得啓發,認為當前的蠻力方法並不是唯一的方法。當Cerebras的芯片運行起來,功耗大約為15kw,足以為數十座房屋供電(相同數量GPU能耗更多)。而相比起來,人腦消耗能量就只有大概20w,只有前者的千分之一,而人腦在許多方面都比硅芯片更聰明。因此,英特爾和IBM等公司正在研究“神經形態”芯片,希望設計出更能模仿生物大腦神經元電行為的組件。
**但到目前為止,這兩條路都還很遙遠。**量子計算機在理論上相對容易理解些,但儘管有谷歌,微軟和IBM等技術巨頭投入數十億美元,實際搭建卻仍是個巨大挑戰。而神經形態芯片雖然是用現有技術構建的,但讓設計人員很氣餒的是,就連神經科學家都還不怎麼了解大腦究竟在做什麼以及怎麼做到的。
這意味着,**在可預見的未來,AI研究人員將不得不繼續儘可能地壓榨現有計算技術性能。**而Toon先生對此還是很樂觀的,他認為通過更專業硬件以及調整現有軟件讓訓練更快,也還是能帶來很大收益。為了説明這個新領域的發展,他用電子遊戲打了個比方:“現在我們已超越了乓(Pong),可能到了吃豆人。”
沒有錢來進行訓練的窮煉丹師們理所當然地希望他説的是對的。
相關報道:
https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem