MLPref放榜!大模型時代算力領域“潛力股”浮出水面:梅開二度拿下世界第一_風聞
量子位-量子位官方账号-04-06 14:25
金磊 明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
後ChatGPT時代下的大模型**“算力難”**問題,“快、好、省”的解法,又來了一個。
就在今天,享有“AI界奧運會”之稱的全球權威AI基準評測MLPerf Inference v3.0,公佈了最新結果——
來自中國的AI芯片公司,墨芯人工智能(下文簡稱“墨芯”),在最激烈的ResNet50模型比拼中奪冠!

而且在此成績背後,墨芯給大模型時代下的智能算力問題,提供了一個非常具有價值的方向——
它奪冠所憑藉的稀疏計算,堪稱是大模型時代最不容忽視的算力“潛力股”。
不僅如此,墨芯此次還是斬獲了開放任務分區“雙料冠軍”的那種:
墨芯S40計算卡,以127,375 FPS,獲得單卡算力全球第一;
墨芯S30計算卡,以383,520 FPS算力,獲整機4卡算力全球第一。
而且墨芯靠着這套打法,在製程方面更是用首顆稀疏計算芯片12nm的AntoumⓇ打敗了4nm。
不得不提的是,這次對於墨芯而言,還是“梅開二度”;因為它在上一屆MLPerf,憑藉S30同樣是拿下了冠軍。
在與GPT-3參數相當的開源LLM——1760億參數的BLOOM上,4張墨芯S30計算卡在僅採用中低倍稀疏率的情況下,就能實現25 tokens/s的內容生成速度,超過8張A100。

那麼稀疏計算為什麼對大模型有這般良效?
算力紀錄再度被刷新
我們不妨先來看下,墨芯所刷新的紀錄到底是怎樣的一個水平。
以墨芯S40為例,在MLPerf數據中心的圖像任務主流模型ResNet-50上,且在相同數據集、相同精度條件下,算力達127,375 FPS。
這個“分數”是老牌玩家英偉達H100、A100的1.4倍和2.9倍!

****△1、評測條件:MLPerf相同條件、數據集、精度;2、A100單卡算力數據選擇近兩屆MLPerf最佳成績;3、“*”代表稀疏等效算力。
而墨芯S30計算卡,正如我們剛才提到的,獲得了ResNet-50模型“整機4卡”冠軍,其算力383,520 FPS;是英偉達H100的4卡成績的1.8倍,並且超過英偉達A100的8卡成績。

****△1、評測條件:MLPerf相同模型、數據集、精度;2、“*”代表稀疏等效算力。
再從自身對比角度來看,墨芯S40計算卡比上屆冠軍S30計算卡的算力增幅達33%。
並且與上一次MLPerf相比,墨芯產品相較H100和A100的算力優勢分別擴大了20%和90%。

****△1、評測條件:MLPerf相同條件、數據集、精度;2、A100單卡算力數據選擇近兩屆MLPerf最佳成績;3、“*”代表稀疏等效算力。
在NLP模型BERT上,墨芯S40計算卡算力5,069 SPS達到英偉達提交的A100算力的2.7倍。

****△1、評測條件:MLPerf相同模型、數據集、精度;2、“*”代表稀疏等效算力。
更重要的一點是,隨着AIGC的大爆發,加速推理速度、可以在線實時交互,成為了亟待解決的需求,而這也是大模型落地的一大痛點。
而在本次MLPerf中,墨芯S30與S10計算卡在離線(Offline)與在線(Server)兩種模式下,均展現出了優異的表現。

****△1、評測條件:MLPerf相同模型、數據集、精度;2、“*”代表稀疏等效算力。
這一點,便證明了稀疏計算是具備同時兼顧高吞吐、低延時的獨特優勢的。
為什麼稀疏計算會成為正解?
簡單理解,稀疏化就是一種聰明的數據處理和模型壓縮方式,它讓神經網絡在計算時,能夠僅啓用所需的神經元。
而稀疏計算就是將原有AI計算的大量矩陣運算中,含有零元素或無效元素的部分剔除,以加快計算速度,由此也能進一步降低模型訓練成本。
自從Transformers掀起大模型浪潮後,稀疏計算也成為了大廠關注的重點方向。
2021年,谷歌研究和OpenAI就罕見合作論文《Sparse is Enough in Scaling Transformers》,力證稀疏計算能為大模型帶來數十倍加速。
而更早以前,2017年OpenAI就發佈了稀疏計算內核,實現了在同等計算開銷的情況下,能計算更深的神經網絡。

谷歌這幾年也密集發佈了稀疏計算方面的多項工作,包括Pathways、PaLM、MoE、GLaM等。
其中Pathways架構是稀疏計算領域的一項重要工作。谷歌在當初發佈時將其稱為“下一代人工智能架構”,其技術博客由谷歌大腦負責人Jeff Dean親自操刀撰寫。
由此可見谷歌對Pathways架構及稀疏計算的重視。

這篇博客中寫道,當今的模型是稠密、低效的,Pathways能將它們變得稀疏、高效。

Pathways能做的事,就是實現訓練一個模型,完成成千上萬件事情。
其核心原理在於稀疏計算,即在執行任務時僅稀疏激活模型的特定部分,計算真正有用的元素。
並且在該架構發佈沒幾天後,谷歌就跟進了稀疏計算領域的另一項重要工作:發佈基於Pathways架構的5400億參數大模型PaLM。
之後,谷歌還提出了首個多模態稀疏化模型LIMoE,它在降低模型計算量上的優勢非常突出。
因為採用了稀疏計算,可以實現執行一次任務只調用模型中的一個子模型,那麼這次任務的成本將會和標準Transformer差不多。比如LIMoE-H/14總共有5.6B參數,但是通過稀疏化,它只會使用每個token的675M參數。
就在今年ChatGPT大火後,稀疏化GPT方法也被提出,能夠實現不降低模型效果的情況下,將大模型權重降低一半。

除了在算法架構方面以外,硬件計算側對於稀疏化的關注也在提升。
比如英偉達就在其Ampere架構中首次支持2倍稀疏計算。
Ampere架構為英偉達A 100帶來了第三代Tensor Core核心,使其可以充分利用網絡權值下的細粒度稀疏化優勢。
相較於稠密數學計算(dense math),能夠在不犧牲深度學習矩陣乘法累加任務精度的情況下,將最大吞吐量提高了2倍。
以上大廠的動作,無疑都印證了稀疏計算會是大模型時代下AI計算的有效解之一。
由此也就不難理解,為什麼墨芯會押中稀疏計算這一方向,並取得最新戰績。
一方面是很早洞察到了行業的發展趨勢;另一方面也是自身快速準確做出了定位和判斷。
墨芯創始人兼CEO王維表示,他們從2018、2019年就看到了稀疏計算給AI計算帶來了數量級上的性能提升。
與此同時,Transformers開啓了大模型時代,讓AI從1.0時代步入2.0,推動了AI在應用場景、算力需求等方面的改變。
尤其是算力方面,王維認為已經產生了質變:
“小模型時代,用場景數據訓練小模型,研發和部署週期短,對算力的需求主要是通用性、易用性。到了大模型時代,大模型主要基於Transformers模型架構,更追求計算速度和算力成本。”
而做稀疏計算,不只是墨芯一家想到了,前面提到英偉達也在推進這方面進展,不過王維表示,這對於GPU公司而言可能是“意外收穫”,但如果專注稀疏計算的話,需要做的是十倍甚至百倍加速。
因此,墨芯選擇的路線是從算法提升上升到軟硬協同層面。
2022年,墨芯發佈首顆高稀疏倍率芯片AntoumⓇ,能夠支持32倍稀疏,大幅降低大模型所需的計算量。

墨芯在MLPerf中開放分區的提交結果刷新記錄,也是對這一路線的進一步印證。
據透露,不僅在MLPerf上表現出色,墨芯的產品商業落地上也進展迅速。
墨芯AI計算卡發佈數月就已實現量產,在互聯網等領域成單落地。ChatGPT走紅後墨芯也收到大量客户問詢,瞭解稀疏計算在大模型上的算力優勢與潛力。
如今,ChatGPT開啓新一輪AI浪潮,大模型領域開啓競速賽、算力需求空前暴增。
如微軟為訓練ChatGPT打造了一台超算——由上萬張英偉達A100芯片打造,甚至專門為此調整了服務器架構,只為給ChatGPT和新必應AI提供更好的算力。還在Azure的60多個數據中心部署了幾十萬張GPU,用於ChatGPT的推理。
畢竟,只有充足的算力支持,才能推動模型更快迭代升級。
怪不得行業內有聲音説,這輪趨勢,英偉達當屬最大幕後贏家。
但與此同時,摩爾定律式微也是事實,單純堆硬件已經無法滿足當下算力需求,由此這也推動了算力行業迎來更新一輪機遇和變革。可以看到,近兩年並行計算等加速方案愈發火熱,這就是已經發生的變化。
而ChatGPT的火熱,無疑加速了這一變革。在真實需求的推動下,算力領域硬件軟件創新突破也會更快發生,模型會重新定義算法,算法會重新定義芯片。
你覺得呢?