餘鵬鯤:美國首台E級超算,贏在哪裏?輸在哪裏?
【文/觀察者網專欄作者 餘鵬鯤】
當地時間5月30日,世界超算兩大學術會議之一的ISC在德國漢堡舉行,併發布了超級計算機Top500 榜單。登頂本次榜單的是美國橡樹嶺國家實驗室研製的Frontier超級計算機,在LINPACK基準測試中,這台超級計算機的穩定運行速度可高達1.1EPlop/s(百億億每秒),理論速度高達1.68EPlop/s。
Frontier的成績在榜單中是鶴立雞羣的存在,以穩定速度計,比排名第二的日本超級計算機“富嶽”整整快了2.49倍,理論速度更是快了3.14倍。事實上Frontier的穩定速度,相當於排名2-8名超算的性能之和。在性能有成倍提升的情況下,Frontier的功耗僅相當於“富嶽”的71%。也就是説,Frontier不僅性能強大,還擁有非常出色的功耗表現。

超算Top500 榜單1-6名
相比日本、芬蘭和美國在超算上的你追我趕,近年來的中國顯得非常沉寂,曾經排名世界第一的超算神威·太湖之光不僅在排名上滑落到第6,性能也只有不到0.1EPlop/s,與Frontier相比存在數量級的差異。
第一名超過第二名近2.5倍,第二名又比第三名快了將近3倍,面對這一現象,有人提出中國的超算是“(堆)硬件上的領先”,並引用清華大學科學史系博士後司宏偉文章,認為:“中國超級計算機的自主創新之路還任重而道遠,面臨着原創能力不足、人才匱乏及應用較少等問題”。
2021年底,司宏偉在發表的一篇文章中指出:若以國內目前傳統技術方法構建一台E級的超級計算機,年能耗將會超過三峽水庫發電量的1/3。
美國加州大學計算機工程博士劉少山認為:國內超算軟件人才與美國相比還有很大差距,目前絕大多數超算底層軟件庫都是由美國的科研人員所研發。中國還很缺能夠利用超算解決應用問題的高素質人才。國家超級計算無錫中心並行優化部主管劉釗在接受媒體採訪時談到,近年來在互聯網公司的衝擊之下,無錫(超算)中心的人手一直吃緊,特別是應用領域人才偏少,大約只佔研發團隊人員的三分之一。
如果只看這些材料,難免給人一種感覺,中國過去在超算領域長期領先只是偶然的,中美超算的潛在實力相差很遠,事實果真如此麼?
中美超算水平依然接近
根據中國科學院院士錢德沛2019年所做的一個報告,1993-2012年,超級計算機的性能大約每10年提高1000倍,從2013年起,上升速率變緩,降低為每10年100倍左右。但無論如何,超級計算機性能增長的速度遠高於民用PC的性能增長,這説明超級計算機性能提高固然要靠單芯片性能的增長,也非常依賴系統規模的擴大。

超算性能增長曲線
超級計算機的性能野蠻生長了20年,至今為止,美國研製Frontier的花費也不過區區6億美元,這説明超算系統規模的擴大並不是簡單的堆硬件。過去超級計算機競爭的關鍵,就在於研發設計芯片間計算任務調度、分發、通信的軟硬件,使得數量眾多的芯片能夠以較高的效率同時進行計算。

Frontier超算
一些文章雖然正確科普了通信技術對超算的重要性,但卻陷入到對美國超算通信技術的盲目崇拜中去,把Frontier採用的HPE Cray Slingshot-11説成是“最先進的”,而沒能客觀比較中美超算通信難度。2016年,中國正式公佈了神威·太湖之光超算,該超算共由40960塊“申威26010”處理器構成,這些處理器分屬20480個節點。
而美國的Frontier只有9408個節點,每個節點配備一個AMD Epyc 7A53 CPU和四個AMD Instinct MI250X加速卡。顯然,Frontier的節點間通信的壓力要小得多,也更容易設計。因為Frontier拿了第一,所以就認為美國在超算調度、分發、通信等等領域超過中國,這顯然是不客觀的。

Frontier的基本情況
有人可能會覺得只比較節點太過於武斷,其實早在2016年中科曙光就正式啓動了E級超算的研製項目,2018年前後同時在研的有曙光、神威、天河三種技術路線的E級超算,其中進度最快的“天河三號”原型機,2018年7月就通過了驗收,標誌着中國掌握了E級超算相關技術。
但中國超算繼續領跑榜單的情況並未出現,這主要是由於美國對中國超算發展始終持不正常的陰暗想法,蠻橫無理地採用包括單邊制裁在內的手段遏制中國超算發展,導致中國從2020年開始不願意提供中國超算的基準測試數據,並加強了保密措施。正如上海交通大學網絡信息中心副主任、高性能計算專家林新華所説:“進入TOP500是為了促進國際合作,但結果卻適得其反”。
那麼中國是否具有E級超算呢?今年5月,美國田納西大學相關領域的教授傑克·唐加拉認為:“中國是有東西的”,“只是沒有官方的説法”。
無獨有偶,去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名權威人士”的話指出,中國神威·太湖之光的後續型號海洋之光,2021年3月運行基準測試時,穩定運行速度達到了1.05EPlop/s,其時的功率為35MW。
如果該文數據正確,那麼有人説中國的E級超算功耗“將超過三峽發電量的1/3”的説法不攻自破。
國外媒體的猜測並非空穴來風,今年4月中國科學技術大學、國家海洋科學與技術試點實驗室(青島)、北京大學數學科學學院、無錫國家超級計算中心和中國海洋大學組成的聯合團隊,公佈了一篇超級計算機模擬複雜量子多體的文章,文章中介紹了高性能計算環境時報告了sw26010pro的架構。該CPU作為sw26010改進型,擁有6個計算組,每個計算羣有1個管理核心和64個計算核心。而組成太湖之光的sw26010,只有4個計算組,説明sw26010pro單片至少有50%的性能提升,極可能屬於新超算,文章也稱之為“新一代神威超級計算機”。

sw26010pro的架構
同樣基於“新一代神威超級計算機”的還有第一單位為中國科學技術大學的一篇論文,該研究首次實現了長達7天的全球3公里空間分辨率大氣物理-化學全耦合數值模擬試驗。文中提到,數值模擬試驗的規模最大曾經達到過近4000萬處理器核,並且效率仍然達到76.2%。

相關論文
從論文中透露的信息,我們不難分析出兩點內容。一是“新一代神威超級計算機”的規模很大,遠超過神威·太湖之光(最大1000多萬個處理器核)。二是“新一代神威超級計算機”效率很高,須知幾乎沒有超算程序的運行效率高於基準測試。美國的Frontier運行基準測試時,效率也不過能達到理論的65%,還有很大的進步空間。
更為直接的證據來自於2021年一項利用神威·海洋之光實時模擬量子電路的研究。該研究披露,海洋之光的節點高達驚人的107520個!模擬程序的速度可以達到1.1EPlop/s(單精度)或者4.4EPlop/s(F16混合精度)。
由於模擬使用的海洋之光還是片上異構式的超算,1.1EPlop/s(單精度)換算成超算常用的雙精度至少有0.55EPlop/s。如果海洋之光沒有對混合精度進行過優化,那麼4.4EPlop/s(F16混合精度)換算成雙精度就有1.1EPlop/s,這一成績已經與Frontier運行基準測試的成績差不多了。何況模擬程序的效率,幾乎肯定達不到基準測試,海洋之光的實際速度還可能更高。

論文中關於計算速度的表格
因此我們可以放心大膽地認為:中國即使沒有E級超算,也非常接近,中美超算技術並未重新拉開差距,而這些成績還是在西方國家嚴格制裁的情況下取得的。
同時,這麼多的論文和研究,也説明中國超算的應用水平已經達到了相當的水平。固然還有提高的空間,卻不像一些人所説的那樣一團黑。
美優勢在於民用芯片
中美超算水平接近,是否意味着美國超算就不值得借鑑呢?顯然不能這麼説,美國這次超算重新奪魁,一個突出的優勢就在於美國的民用芯片水平很高,並且帶動了像超算這樣的專用領域。
在神威·太湖之光以前,超算的競爭主要是超算系統中調度、分發、通信相關的軟硬件的競爭。每一個節點要麼純CPU,要麼是CPU+加速卡的異構計算方案,為了提高性價比和計算速度,往往還會購買英特爾和英偉達兩家美國廠商的成熟產品,早期的天河系列超算就是典型代表。

天河二號是典型的異構計算
CPU+加速卡方案的優點是將管理(通用計算)和專業計算分開,提高了單節點的計算速度,但缺點是計算的數據會反覆在CPU和加速卡之間傳輸,造成大量的性能浪費。而太湖之光使用的sw26010將兩個部分的電路,集成到了一個芯片上(片上異構),這樣既避免了純CPU不擅長專業計算的劣勢,又避免了加速卡不能和CPU共享內存的問題。
值得一提的是,2010年前後開始,純CPU的方案劣勢太大,越來越少地被採用。而無論是異構計算,還是片上異構,編程都不容易,且掌握起來難度都差不多。不存在中國超算芯片因為不用於商業市場,所以程序兼容性不好的問題。
正是由於這個創新,sw26010在設計團隊規模很小,製程落後整整兩代的情況,實現了和英特爾類似產品相似的功耗和性能。太湖之光的成功,啓迪了後來日本的“富嶽”超算。“富嶽”同樣拋棄了美國成熟的計算方案,購買ARMv8.2-A指令集開發管理核心,並自研專業計算模塊,推出了富士通版的片上異構芯片A64FX。
A64FX的架構和sw26010即使不能説一模一樣,也可算得上極為相似,同樣是四個計算組,就連性能也差距不大。A64FX的理論性能是2.7TFlop/s,sw26010的為3.06TFlop/s。僅就性能而言,2018年推出且工藝更先進的A64FX尚不及2015年的sw26010,足以説明神威超算開發團隊在立項sw26010時獨具慧眼。

A64FX架構介紹
從理論上講,片上異構具有突出的功耗比優勢,因為調度和傳輸浪費的計算性能較少。太湖之光的實測性能與理論性能之比高達74%,日本的“富嶽”更是達到82%,而美國的Frontier由於是傳統的CPU+加速卡架構,只有65%,但是Frontier功耗遠低於“富嶽”,很可能也明顯低於中國的E級超算。這意味着芯片間調度過程中浪費的性能,被每個芯片優異的功耗表現省了回來。
由於美國的半導體封鎖,中國超算芯片不可能運用先進的製程,單芯片功耗比表現不佳情有可原。但日本的富士通A64FX使用的製程與美國的幾乎一樣,性能表現上出現這麼大的差距,只能是兩國民用半導體產業內功相差甚遠。
Frontier是由AMD主導打造的,AMD曾經在與英特爾的商業競爭中受挫,從而差點一蹶不振。2015年,AMD攜帶十年磨一劍的Zen架構再踏征程,在CPU方面與英特爾展開了慘烈的商業競爭。AMD還做GPU,與英偉達也殺得難解難分。伴隨着競爭而來的是,CPU、GPU的功耗比陡峭地下降,性能迅猛地上升。
Frontier使用的是AMD Epyc 7A53 CPU,為了充分降低功耗,這款64核的CPU主頻被限制在了2.0Ghz。雖然AMD不願透露更多信息,外界普遍猜測這款號稱為超算定製的CPU改進是有限的。AMD用於數據中心的芯片本來就有很多64核的芯片,其中有很多的基礎頻率就是2.0Ghz,將其用於超算,主要是限制主頻+芯片特挑。除此之外,AMD的64核芯片早已形成了多條產品線,既有壓低功耗的,也有像Epyc 7H12這樣的高功耗高性能的芯片。

AMD部分64核數據中心服務器芯片
由於AMD的64核系列能夠在商業市場賺大錢,進而投入更多成本進行優化,因此Epyc 7A53雖然投入精力不多,也能在超算市場打出一片天來。
Frontier核心計算部分主要依靠AMD Instinct MI250X加速卡,採用的是CDNA2架構,熟悉遊戲顯卡的人不難想到近年來AMD遊戲顯卡的架構是RDNA2,兩者之間是存在關係的。MI250X加速卡可視為一張專門為計算打造的顯卡,眾所周知美國的CPU設計技術領先世界,但很少有人知道美國的GPU設計技術更是和其他國家拉開了代差。其他國家獨立自主研發的頂尖GPU,絕對性能與美國英偉達、AMD等巨頭之間存在2-3個數量級的差異。
Frontier之所以能在節點數量遠少于海洋之光和“富嶽”的情況下,實現E級超算,關鍵就在於MI250X加速卡突出的性能和功耗比。一張MI250X能提供的理論雙精度性能竟然有47.9TFLOP/s,是富士通A64FX的17倍,要是雙精度運算全是超算應用中較多的矩陣運算,MI250X的理論性能還能進一步提高到95.7TFLOP/s。

MI250X的基本情況
MI250X加速卡這麼強,不光是AMD本身的設計,每塊加速卡上還集成了128GB HBM2e高帶寬內存。現在的超算主要還是馮·諾依曼結構佔主導,內存速度將直接影響計算速度,這種內存比普通的要快得多,目前卻只有少數企業能夠生產。
由於美國有着極為發達的民用芯片產業,因此Frontier作為美國首台E級超算,基本沒在超算理論上費多少心,主要就是依靠近年來民用CPU、GPU功耗急劇下降,GPGPU(計算顯示核心)蓬勃生長的浪潮,極大地提高了每個節點的性能而實現的。
面對此情此景,我們要做的,不是否定過去篳路藍縷艱苦奮鬥的國產超算成就,而要鼓勵民用計算機產業努力升級,直面競爭。超算是計算機產業的皇冠,超算和民用芯片的關係有越來越大的趨勢,只有我們民用計算芯片的寶石足夠大、足夠多,中國超算的皇冠才能更加璀璨。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。