技術演進的意外結果:遊戲與加密貨幣怎麼就成了AI的“算力底座”?_風聞
科普中国-科普中国官方账号-中国科协科普工作官方微平台05-11 17:39
在剛剛過去的春天,我們見證了新世紀以來規模最大的科技狂歡。用“雨後春筍”來形容這幾個月人工智能(AI)的發展都會顯得過於保守,“大爆炸”可能是更合適的形容——就連原百度總裁、行業大牛、公認“最有幹勁”的陸奇博士也説自己“(論文和代碼)跟不上了,實在是太多了。”
回想 2022 年 11 月 30 日,新時代的大門突然打開。OpenAI 公司發佈了 ChatGPT,人們驚覺 AI 重現了 AlphaGo 的輝煌——而且這次更全面。以 GPT-3 為代表的生成式人工智能似乎擁有了全面的語言處理能力,而 MidJourney、Stable Diffusion 則讓繪畫不再是人類獨有的手藝。接下來的幾個月,大語言模型(LLMs,Large Language Models)成了人盡皆知的關鍵詞,微軟、谷歌、臉書(Meta)這些互聯網巨頭重新站迴風口浪尖。
國內企業也紛紛發力。百度的“文心一言”、商湯的“日日新”、阿里的“通義”、騰訊的“混元”、華為的“盤古”都亮了相。到 5 月,各種企業和教學科研機構院校發佈的大模型已經超過 30 種,大有“構建新時代 IT 底座”的豪情,真可稱得上“日日工業革命,夜夜文藝復興”。

圖庫版權圖片,不授權轉載
當然,AI 的未來並非沒有隱憂。彭博社在 2023 年 3 月初的一篇文章中説,谷歌公司每年的用電總量中,有 10%~15%是被AI項目吃掉的。這大約相當於亞特蘭大50萬人整整一年的生活用電量。根據國際數據公司( IDC) 的預測,目前 AI 的 能源消耗佔全球能源消耗的約 3%;2年以後的2025 年,這個數字將猛增到 15%,與之伴隨而來的是對環境的巨大影響。
從這個意義上説,能源是AI的第一個底座。也許 AI 在造福全人類之前,先會撞上能源之牆。
01
這些能源是怎麼被AI吃掉的?
可是,AI為什麼會這麼耗電?這就牽扯到它的**另一個底座:**算力。AI 是計算密集型技術,在 ChatGPT 這樣的應用中更是如此。它需要大量算力,自然也需要大量能源。
掀起最近的 AI 浪潮的,是深度學習(Deep Learning)技術,它會構建分成多層的人工神經網絡(即深度神經網絡),其中每個神經元都有自己的可調節參數。大語言模型往往意味着數十億、上百億甚至更多的參數,這是獲得良好結果的保證;而在此基礎上,還需要龐大的數據集,來教會模型如何做出正確的反應。支撐這兩者的,就是強大的計算能力。
**算力、數據和算法是 AI 的三要素,缺一不可。**發佈之初,ChatGPT 的背後是 GPT-3 模型。這個模型包含了 1750 億個參數,使用了 45T 的數據來訓練,訓練一次的算力需求大約是 3640 PF-day——也就是説,如果使用每秒鐘運算 1000 萬億次的計算設備,完成一次訓練需要 3640 天。

圖庫版權圖片,不授權轉載
這還只是訓練而已。把 AI 模型放在現實環境中來回答問題或者採取行動——這被稱為“推理”——比訓練更耗能。根據芯片巨頭英偉達的估計,GPT-3 這樣的模型,會有 80% 到 90% 的成本花在推理而非訓練上。
AI 的訓練和推理之所以需要這麼多算力,主要有三方面原因:數據集的膨脹、參數的增長,以及模型的收益遞減規律。大致上,數據越多,模型學到的就越多,這和人類的學習類似;而和人類學習不同的是,當在更大的數據集上多次迭代學習時,消耗的能量也會迅速增加。
模型參數增加時,人工神經元之間的連接會呈指數增加,所需的計算量和能量也會飆升。在先前的一個測試案例裏,模型的參數數量增加了 4 倍,而耗能增加了 18000 倍。
更糟糕的是,**模型並不是越大越好,它也同樣存在性價比問題。**2019 年,美國艾倫人工智能研究所(AI2)的研究人員發表了一篇論文,證明了大模型的邊際收益遞減現象:2017 年發佈的 ResNeXt 模型和它2015年的原版相比,所需算力增加了 35%,但準確率只提高了 0.5% 。
然而,在找到最優平衡前,人們還是得努力堆算力。OpenAI 公司發表的一篇文章説,從 2012 年到現在,用於人工智能的計算量增加了 30 萬倍,即大概每過 100 天,AI 的計算量就翻一番。
這大概是 AI 時代的新摩爾定律。
02
算力:AI時代的摩爾定律
1965 年,英特爾公司的聯合創始人戈登·摩爾(Gordon Moore)提出了一條經驗規律,認為集成電路上可容納的晶體管數量將會以每兩年翻倍的速度增長。這意味着,每過 20 年,同樣大小的集成電路上,晶體管的數量將增加 1000 倍;每過 40 年,則是 100 萬倍。
今天我們所在的信息時代,就建立在摩爾定律的基礎上。它一直是計算機技術發展的重要推動力。
從某種意義上説,摩爾定義帶來的推動力只是“外因”。計算機技術的發展還需要一點“內因”的影響——它來自人類的天性:玩。
“遊戲”和“擁有”的渴望一直刻在我們的基因裏,早在“人”這個物種還沒有誕生時便是如此。計算機剛被髮明出來沒有多久,遊戲就成了它的重要用途。早在1952 年,美國計算機科學家阿瑟·塞繆爾(Arthur Samuel)就在一台 IBM 計算機上寫出了第一個跳棋程序。後來,他還創造了“機器學習”一詞。今天,這個詞和“人工智能”經常一起出現。1966年,美國計算機科學家、圖靈獎得主肯·湯普森(Kenneth Thompson)為了能繼續玩自己開發的“星際旅行”遊戲,乾脆寫了一個操作系統,還順手設計了一門編程語言。那個操作系統就是後來的 Unix。今天計算機上的 Linux 和 macOS 操作系統、手機上的 Android 和 iOS 操作系統都可以算成它的近親。而那門編程語言,就是大名鼎鼎的 C 語言。

圖庫版權圖片,不授權轉載
1982 年,IBM 推出了個人計算機(PC)。PC 遊戲的出現順理成章。更快的硬件會催生更強大的軟件,更強的軟件會逼迫硬件升級,兩者像藤蔓般糾纏在一起。1992 年,大受歡迎的 3D 遊戲《德軍總部 3D》誕生。在 3D 遊戲中,畫面渲染計算的難度並不大,但是對計算速度的要求很高。在這類遊戲中,環境和角色都是用許多多邊形構建起來的。它們的形狀和位置取決於頂點的3D座標。顯卡需要對許多頂點執行矩陣乘法與除法運算,才能確定這些模型該如何在平面的屏幕上準確呈現;然後,還需要對每個像素做一番計算,才能確定每個像素的顏色。這些計算需要很快的速度,因為 3D 遊戲往往是移步換景的。
幸好,這些計算難度不高,而且彼此大都是獨立的。所以,專門用於顯示的顯卡應該擅長完成這些並行計算,並能快速傳輸數據。這樣的需求,讓計算機顯卡的核心圖形處理器( GPU) 走上了和計算機 CPU 不同的道路。GPU 可以專為圖像處理優化。
在進入新世紀後,摩爾定律失效的苗頭越來越明顯。加工工藝逐漸接近物理極限,晶體管越來越小,越來越難以製造和集成,散熱和電力供應也越來越成問題。於是,多核心逐漸成為主流的解決方案;無論是 CPU 還是 GPU,都朝着多核心的方向一路狂奔。
緊接着,比特幣就出現了。
以比特幣為代表的加密貨幣是被計算出來的,這個過程叫做“挖礦”。挖礦需要大量的並行計算能力,每秒鐘要執行數百萬次。在加密貨幣價格上漲的日子裏,“挖礦”成了利潤豐厚的商業活動,為了追求更多的財富,狂熱的“礦主”甚至把顯卡買到缺貨——而這樣的需求又進一步刺激了對算力突破的需求。
芯片廠商最初研發GPU的時候,怎麼可能會想到,很多年後,這些“遊戲裝備”竟然被拿來“挖礦”了呢?
03
技術自有安排
沒想到的事情,又何止這麼一件?
2010 年,美國空軍買了大約 2000 台索尼公司生產的 PlayStation 3 遊戲主機。這是要讓飛行員們通過玩兒遊戲來訓練嗎,還是乾脆就是軍官們想玩兒遊戲了?
都不是。
在物理學家卡納(Guarav Khanna)的一番操作之後,這些遊戲主機被連在一起,成了一台專門用於處理高分辨率衞星圖像的超級計算機。它的浮點運算性能比當時市場上的最強顯卡還要強至少30倍。即使是10多年後的現在,最強的消費級顯卡也只能勉強達到它的1/5。
這顯然也是索尼公司和遊戲玩家們沒想到的事情。不過,倒也不難理解。遊戲主機本來就是為了遊戲優化的——PlayStation 3 使用的芯片,有獨立的 CPU 和 GPU 協同工作,能利用 8 個核心來完成雙重任務,還可以在所有核之間共享信息。
如今,AI 也需要這些能力。今天 AI 的主要技術是深度學習,而深度學習的基本思想是“聯結主義”:儘管神經網絡中的單個神經元不具備智能,但大量神經元連接在一起,往往就會“湧現”出智能。關鍵是神經元數量要多,神經網絡規模要大——模型能力的提升關鍵之一,就是網絡規模的變化。
**顯然,網絡規模越大,對計算能力的需求就越高。**今天的大型神經網絡通常使用 GPU 來計算。因為神經網絡所使用的算法,往往會涉及到大量的參數,它們會在每一次訓練迭代時更新。要更新的內容越多,對內存帶寬的要求就越高,而 GPU 的優勢之一就是內存帶寬。而且,神經網絡的訓練算法往往在神經元級別上相對獨立且簡單,所以還可以利用 GPU 的並行計算能力來加速處理。

圖庫版權圖片,不授權轉載
這當然不是顯卡的設計用途。但是誤打誤撞地,顯卡成了 AI 時代的基礎設施。正是遊戲和加密貨幣,在一定程度上幫助後來的AI打下了這樣的“算力底座”。從某種意義上説,這是技術自己的安排。
04
技術總是出人意料
今天,AI 已經開始推動社會和工業變革。若是沒有顯卡,也許我們不會這麼快看到 AI 走進生活。而顯卡,源自人們的熱情和創新精神,特別是對遊戲和加密貨幣的追逐。這大概算是個有點意外的開端。
著名科學作家裏德利(Matt Ridley)在其名作《自下而上》裏説,**技術創新和生物的演化一樣,沒有特定的方向,只有在經過一番優勝劣汰之後,最合適的技術才會發展壯大。**而某種技術一旦成為主流,又會不斷地自我改進。技術像是變成了一種獨特的生物,有了自己的發展方向。隨着技術進步,那些受到歡迎的技術會繼續累積,發展速度會變得越來越快。
凱文·凱利(Kevin Kelly)也有些相似的觀點。他在《科技想要什麼》中談到,科技的發展不是線性的,而是充滿了曲折和反覆;科技的演進往往復雜而不確定,未來的發展往往出乎人們的意料。
所以,AI 的耗能問題,也許會有出乎意料的解法。現在人們已經開始嘗試讓 AI 不那麼耗電,如降低精度、模型壓縮、模型裁剪等技術;也在積極探索可再生能源技術的應用,來提供更環保的能源。這當然是個好的開始。
把這個問題留給 AI 來探索,也許會有令人驚喜的答案吧!
作者|猛獁 哈爾濱理工大學
審核|於暘 騰訊安全玄武實驗室負責人
本文封面圖片及文內圖片來自版權圖庫
圖片內容不授權轉載
原創圖文轉載請後台回覆“轉載”