人工智能環保嗎?_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!03-09 13:07
用於人工智能的成本,正在以驚人的速遞流失,這不僅體現在真金白銀商,更在能源消耗上。
撰文 | Charmaine Lai, Subutai Ahmad, Donna Dubinsky & Christy Maver
譯者 | lemon
審校 | P
在過去十年,人工智能(特別是深度學習)取得了顯著成效。當Siri讀懂你説的話、臉書認出了你的表親、谷歌地圖為你重新規劃路線時,都大概率涉及到了深度學習系統。
鮮為人知的是,這些模型正消耗着驚人的成本,不僅體現在真金白銀上,也體現在能源消耗上。照目前的跡象來看,人工智能只會給氣候危機火上澆油。可相比之下,我們的大腦(功耗小於40瓦)可就高效多了。如果我們把基於神經科學的技術應用到人工智能中,那麼用於計算的能耗將有可能大大降低,從而減少温室氣體排放。這篇博文旨在解釋到底是什麼導致了人工智能過大的能源消耗,以及如何用基於大腦(工作原理)的技術解決這種過高的能源成本問題。
為什麼人工智能如此耗能?
科學治理沙塵暴
首先,我們有必要簡單瞭解一下深度學習模型的工作原理。深度學習模型的“智能”之處和你的大腦並不一樣。它們不以結構化*的方式學習信息。與你不同,它們不懂什麼是因果關係*、上下文*或類比*。深度學習模型是用“蠻力”的統計技術*。
例如,你要是想訓練一個深度學習模型來辨認一張貓的照片,你需要向它展示上千張由人類標記過的貓的圖像。該模型並不知道貓比狗更有可能爬樹、玩羽毛*。因此除非我們拿包含樹和羽毛的貓的圖像來訓練它,否則它不會知道這些物體的存在可以幫助對貓的識別。而為了做出這些推斷,我們需要用所有可能的物體組合圖片對模型進行“蠻力”訓練。
*譯者注
結構化:作者此處想表達的也許是深度學習模型不像人一樣建立各種概念,而且知道這些概念之間的關係(因果關係、先後關係、相似/相鄰關係)。但深度學習模型確實是以結構化的方式來學習信息的——模型在加入歸納偏置後具有某種等變特性,能夠處理特定結構的數據(圖像、時間序列、圖結構的數據等)。因此此處表述不準確。
因果關係:誠如作者所言,機器學習模型一直為人詬病之處便是其僅習得關聯,而非因果。但近期有研究已經開始探索似乎在大語言模型中湧現的因果關係,如Can Large Language Models Distinguish Cause from Effect?等。亦有相當多研究者開始關注因果表示學習這一新興領域。
上下文:事實上,上下文學習對自GPT3之後的大語言模型來説並不是什麼難事,並誕生了in-context learning這樣一個專門研究這一能力的子領域。近期包括Can language models learn from explanations in context?,Emergent Abilities of Large Language Models,What learning algorithm is in-context learning? Investigations with linear models在內的多項研究進一步探索了其機制。
類比:近期已有研究表明,類比推理能力在大語言模型中湧現,如Emergent Analogical Reasoning in Large Language Models所述。
深度學習模型是用“蠻力”的統計技術:原文如此,不一定正確。
該模型並不知道貓比狗更有可能爬樹、玩羽毛:值得注意的是,作者此處所描述的深度學習系統更多聚焦於單任務系統。但事實上,早在幾年前,多任務學習(multitask learning)便已經成為十分流行的範式,並且目前最引人矚目的一些深度學習系統更開始強調一個模型適用於多種任務,如DeepMind的Gato,Google的PaLM等。
- Blaster Studio -
這些運用“蠻力”的統計模型所產生的巨大能源需求是由於以下幾個特點:
• 需要成百萬上千萬的訓練樣本。在貓的例子中,訓練好一個模型需要正面、背面、側面、不同品種、不同顏色、不同陰影以及不同姿勢的貓的圖片。一隻貓的形態有無數種可能性,因此為了成功識別一隻貓,模型必須在眾多版本的貓(的圖片)上進行訓練。
• 需要很多的訓練週期。從錯誤中學習是訓練模型這一過程中的一部分。如果模型錯誤地把貓標記為浣熊,該模型需要重新調整它的參數以將圖像分類為貓*,再重新進行訓練。它從一次次錯誤中慢慢學習,這也需要一遍遍的訓練。
• 當遇到新的信息時得從頭訓練。如果這個模型現在要去識別它從未見過的卡通貓,我們得將藍色卡通貓和紅色卡通貓添加到訓練集中,從頭對它進行訓練。該模型無法循序漸進地學習*。
• 需要很多的權重和乘法。一個典型的神經網絡包含很多由矩陣表示的連接或權重,其中一個或多個矩陣構成一層。為了計算一個輸出,神經網絡的後續層需要執行大量的矩陣乘法,直至最後得到一個結果。事實上,計算單個層的輸出就需要數百萬次浮點運算,而一個典型的神經網絡可能包含數十到數百層,這使得其計算極其耗能。
*譯者注
貓:原文為浣熊,此處應指貓。
該模型無法循序漸進地學習:原文如此。但這一説法並不準確,機器學習中的增量式學習(incremental learning)或與其高度相關的在線/持續學習(online/continual learning)的目標便是循序漸進地學習,並期望最終能夠建模從未見過的數據(分佈外泛化),甚至識別從未見過的物體(零樣本推斷)。
人工智能會消耗多少能源?
一篇來自麻薩諸塞大學阿默斯特分校的論文稱,“訓練一個人工智能模型可以產生的碳排放量,相當於五輛轎車在整個使用期中的排放量。”然而,這項分析僅僅只針對一次訓練而已。當模型經過反覆訓練而改進時,其能耗會激增。許多大公司每天都在訓練成千上萬個這樣的模型,它們對此問題都十分重視。Meta就是這樣一個公司,其最近發表的論文探索了人工智能對環境的影響、研究瞭解決問題的方法、並呼籲有所行動。
當前最新的語言模型包含了數以億計乃至萬億計的權重。其中一個流行的模型GPT-3就有1750億個機器學習參數。該模型在NVIDIA V100 GPU上訓練,雖然研究人員尚未披露該模型的能源使用情況,但通過研究人員的計算,如果使用A100系統則需使用1024個GPU、耗時34天、花費460萬美元來訓練此模型,也就是936兆瓦時。此外,谷歌AI剛剛公佈了具有5400億個參數的模型PaLM(Pathways Language Model)。隨着模型變得越來越大以應對愈加複雜的任務,它們對服務器的需求呈指數增長。
在深度學習的時代,用於訓練人工智能系統的算力呈指數增長丨https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem
自2012年以來,訓練這些人工智能系統所需的計算資源每3.4個月就會翻一番。一位商業合作伙伴告訴我們,他們的深度學習模型足以為整座城市供電。這種能源使用的上升與許多組織聲稱在未來十年內實現“碳中和”的目標背道而馳。
我們該如何減少人工智能的碳足印?
為了解決這個具有挑戰性的問題,我們的建議是:向大腦學習。人腦是一個真正的智能系統最好的例子,然而它只消耗很少的能量(基本上與點亮一盞燈泡的能量相同)。與深度學習的低效率相比,人腦的效率極其顯著。
那麼人腦是如何高效運作的呢?我們根植於神經科學的研究指出了一條讓人工智能更加高效的路線。以下是大腦在不過多使用能量的情況下卻能出色地處理數據的背後的幾個原因:
1 / 稀疏性
大腦中的信息編碼是非常稀疏的,這就像在一長串主要為零的字符串中零星摻雜着一些非零值。這與計算機的表示方法不同,後者通常是密集的。由於稀疏表徵有很多零元素,因此它們在和其他數字相乘時可以被消掉而只剩下非零值。而大腦中的表徵非常稀疏,其中多達98%的數字都是零。
如果我們可以通過具有類似稀疏度的人工智能系統表示信息,那麼就可以消除大量的計算。我們已經證明,在深度學習的推斷任務(inference tasks,例如在視覺系統中識別貓)中使用稀疏表徵可以將功率性能在不損失任何準確度的前提下提高到三至一百倍以上(具體取決於網絡、硬件平台和數據類型)。
深入瞭解:將稀疏性應用於機器學習
將大腦的稀疏性轉移到深度神經網絡(DNN)有兩個關鍵點:激活稀疏性(activation sparsity)和權重稀疏性(weight sparsity)。稀疏網絡可以限制其神經元的活動(激活稀疏性)和連接(權重稀疏性),從而顯著降低模型的大小和計算複雜度。
當神經網絡中的權重和激活函數都很稀疏時,我們只需要計算包含非零元素的乘積,從而消除絕大部分相乘丨https://arxiv.org/abs/2112.13896
2 / 結構化數據
你的大腦通過感官信息流和不斷移動來對這個世界進行建模。這些模型具有三維結構,所以你的大腦能理解貓的左視圖和右視圖,而不必單獨去學習它們。這些模型基於我們所謂的“參照系”,它讓學習變得結構化,使我們能夠建立包含各種對象之間關係的模型。
我們可以納入貓和大樹、羽毛都有關聯的概念,而不必去看數百萬只貓與大樹的實例。與深度學習相比,使用參照系構建模型所需的樣本要少得多。只需貓的幾個視圖,模型就能通過變換數據來理解貓的其他視圖,而無需專門針對這些視圖進行訓練。這種方法可以將訓練集減小好幾個數量級。
深入瞭解:通過參照系來結構化學習
參照系就像地圖上的網格或座標軸。你所知的每一個事實都與參照系中的某個位置一一配對,你的大腦則在參照系中不斷移動來回憶儲存在不同位置的事實。這使你能夠在腦海中移動、旋轉和改變事物。你可以在參照系里根據藍色和現實中貓的樣子來想象一隻藍色卡通貓長什麼樣,而不需要看一百張從各個角度拍的藍色卡通貓圖片。
參照系表示你的身體相對於環境的位置,以及事物之間相對的位置丨https://www.youtube.com/watch?v=LaAYuygr7_8&ab_channel=Numenta
3 / 持續學習
你的大腦在學習新事物的同時不會忘卻之前所學的東西。當你首次見到一種動物時(比方説土狼),你的大腦不需要重新學習一切關於哺乳動物的知識。大腦把一個針對土狼的參照系添加到記憶中,然後標註其與其他參照系(例如狗)的異同,並共享那些相通的子結構(例如尾巴和耳朵)。這種遞增式的學習只需要很少的能量。
深入瞭解:用活躍樹突(active dendrites)來進行多任務和持續學習
生物神經元有兩種樹突:遠端(distal)和近端(proximal)。如今我們所見的人工神經元只模擬了近端的樹突。我們已經證明,通過把遠端樹突合併到神經元模型,神經網絡可以在不忘卻舊知識的前提下學習新知識,從而避免重新學習的需要。
比較一個典型深度學習網絡中的點神經元(左)、一個大腦皮層中的錐體神經元(pyramidal neuron)(中)、一個結合了錐體神經元特性的活躍樹突(右)丨https://www.frontiersin.org/articles/10.3389/fnbot.2022.846219/full
4 / 優化的硬件
如今的半導體架構都是為深度學習優化的,這其中,神經網絡密集而不具備結構化學習的能力*。但我們如果想創造更可持續的人工智能,就需要讓硬件也能包含上述三個屬性:稀疏性、參照系和持續學習。我們已經創造了一些支持稀疏性的技術。這些技術將稀疏表示映射到密集的計算環境中,從而提高推斷和訓練性能。長遠來看,我們不難想象這些基於大腦原則優化的架構將有潛力提供更多的性能提升。
*譯者注
原文如此,不代表正確。
深入瞭解:互補稀疏性
在2021年,我們引入了互補稀疏性。這是一種利用稀疏權重和稀疏激活函數來提升性能的技術,從而實現更節能的硬件。我們最近用互補稀疏性在FPGA上運行推斷任務,並在吞吐量和能源效率上取得了近百倍的進步。
用80%的互補稀疏度將五個稀疏矩陣(具有稀疏權重)打包成一個“密集”的矩陣,並且將其與稀疏激活函數結合起來進行處理丨https://arxiv.org/abs/2112.13896
邁向更可持續的未來
繼續構建更大型、計算量更密集的深度學習網絡不是通向創造智能機器的可持續途徑。Numenta(原作者)認同的是通過一種基於大腦的方法來構建高效且可持續的人工智能。我們必須開發更聰明的、而不是工作更勤快的人工智能。
更少的計算量、更少的訓練樣本、更少的訓練次數與優化的硬件相結合,可以顯着改善能源使用。如果我們的計算量減少十倍、訓練樣本減少十倍、訓練次數減少十倍、硬件效率提高十倍,那麼系統的整體效率將提高一萬倍。
短期內,Numenta希望能大幅降低推斷(inference)中的能耗。Numenta的中期目標是將這些技術應用到訓練中,並隨着訓練次數的減少,預計可以節省更多的能源。從長遠來看,隨着硬件的逐漸增強,Numenta看到了將性能改進上千倍的潛力。
從大腦中提取抽象的原理然後應用到如今的深度學習架構中會把我們推向可持續的人工智能。如果讀者想詳細瞭解Numenta在創建節能的人工智能方面的工作,請查看原文以瞭解更多。
後記
lemon:最開始知道Numenta這家公司是因為讀了Jeff Hawkins的On Intelligence,這本書描述了一種直截了當的接近“強人工智能”的方式——模擬人類的大腦皮層。Numenta的出發點是:既然智能可以從人類的大腦皮層中產生,那麼模擬大腦皮層的算法也將獲得智能。我深深地被這個想法吸引。模擬大腦皮層vs人工神經網絡,到底誰更勝一籌呢?我十分期待答案揭曉的那天。
P:讀原文時,我的第一感覺就是文章本身帶有很強的主觀色彩,尤其是在試圖證明AI只是“用蠻力的統計技術”時,有相當多刻意且過時的觀點。誠然,大模型的訓練開銷和碳排放巨大,比如原文提到的,GPT-3的訓練碳排放相當於五輛小汽車的終身排放。但是,我們也必須承認從大模型中湧現出來的驚人能力。儘管這篇文章寫於去年五月,當時當然還沒有ChatGPT,但已經有不少研究發現了在大語言模型中湧現的多種能力,比如我們註釋的推理和類比等等。不過,我個人也十分認同Bengio、Botvinick、LeCun等學者去年提出的NeuroAI的核心觀點,即從硬件和軟件層面向人腦的架構學習,進一步推進AI的發展。總而言之,我們希望讀者瞭解當前已經取得的進展,以及在把AI的邊界繼續向前推進時所能獲得的潛在收益。
Sixin:這是一家旨在將神經科學原理融入人工智能產品的公司。為了宣傳自己,開頭部分可能會出現一些稻草人謬誤,誇大了深度學習的一些問題。正如譯者與校審者在註釋中所補充的,隨着研究者們不懈努力,這些問題其實已經部分甚至全部得到了解決,讀者可以按圖索驥。不過,本文所提出的參考人腦“稀疏性、結構化、學習持續性”三種特點來降低人工智能產品能耗的想法還是很有啓發性的,讀者可以去粗取精。
本文經授權轉載自微信公眾號“神經現實”,編輯:Sixin、M.W.。
原文:https://www.numenta.com/blog/2022/05/24/ai-is-harming-our-planet/
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。