餘鵬鯤：美國首台E級超算，贏在哪裏？輸在哪裏？

2022-06-21

【文/觀察者網專欄作者餘鵬鯤】

當地時間5月30日，世界超算兩大學術會議之一的ISC在德國漢堡舉行，併發布了超級計算機Top500 榜單。登頂本次榜單的是美國橡樹嶺國家實驗室研製的Frontier超級計算機，在LINPACK基準測試中，這台超級計算機的穩定運行速度可高達1.1EPlop/s（百億億每秒），理論速度高達1.68EPlop/s。

Frontier的成績在榜單中是鶴立雞羣的存在，以穩定速度計，比排名第二的日本超級計算機“富嶽”整整快了2.49倍，理論速度更是快了3.14倍。事實上Frontier的穩定速度，相當於排名2-8名超算的性能之和。在性能有成倍提升的情況下，Frontier的功耗僅相當於“富嶽”的71%。也就是説，Frontier不僅性能強大，還擁有非常出色的功耗表現。

超算Top500 榜單1-6名

相比日本、芬蘭和美國在超算上的你追我趕，近年來的中國顯得非常沉寂，曾經排名世界第一的超算神威·太湖之光不僅在排名上滑落到第6，性能也只有不到0.1EPlop/s，與Frontier相比存在數量級的差異。

第一名超過第二名近2.5倍，第二名又比第三名快了將近3倍，面對這一現象，有人提出中國的超算是“（堆）硬件上的領先”，並引用清華大學科學史系博士後司宏偉文章，認為：“中國超級計算機的自主創新之路還任重而道遠，面臨着原創能力不足、人才匱乏及應用較少等問題”。

2021年底，司宏偉在發表的一篇文章中指出：若以國內目前傳統技術方法構建一台E級的超級計算機，年能耗將會超過三峽水庫發電量的1/3。

美國加州大學計算機工程博士劉少山認為：國內超算軟件人才與美國相比還有很大差距，目前絕大多數超算底層軟件庫都是由美國的科研人員所研發。中國還很缺能夠利用超算解決應用問題的高素質人才。國家超級計算無錫中心並行優化部主管劉釗在接受媒體採訪時談到，近年來在互聯網公司的衝擊之下，無錫（超算）中心的人手一直吃緊，特別是應用領域人才偏少，大約只佔研發團隊人員的三分之一。

如果只看這些材料，難免給人一種感覺，中國過去在超算領域長期領先只是偶然的，中美超算的潛在實力相差很遠，事實果真如此麼？

中美超算水平依然接近

根據中國科學院院士錢德沛2019年所做的一個報告，1993-2012年，超級計算機的性能大約每10年提高1000倍，從2013年起，上升速率變緩，降低為每10年100倍左右。但無論如何，超級計算機性能增長的速度遠高於民用PC的性能增長，這説明超級計算機性能提高固然要靠單芯片性能的增長，也非常依賴系統規模的擴大。

超算性能增長曲線

超級計算機的性能野蠻生長了20年，至今為止，美國研製Frontier的花費也不過區區6億美元，這説明超算系統規模的擴大並不是簡單的堆硬件。過去超級計算機競爭的關鍵，就在於研發設計芯片間計算任務調度、分發、通信的軟硬件，使得數量眾多的芯片能夠以較高的效率同時進行計算。

Frontier超算

一些文章雖然正確科普了通信技術對超算的重要性，但卻陷入到對美國超算通信技術的盲目崇拜中去，把Frontier採用的HPE Cray Slingshot-11説成是“最先進的”，而沒能客觀比較中美超算通信難度。2016年，中國正式公佈了神威·太湖之光超算，該超算共由40960塊“申威26010”處理器構成，這些處理器分屬20480個節點。

而美國的Frontier只有9408個節點，每個節點配備一個AMD Epyc 7A53 CPU和四個AMD Instinct MI250X加速卡。顯然，Frontier的節點間通信的壓力要小得多，也更容易設計。因為Frontier拿了第一，所以就認為美國在超算調度、分發、通信等等領域超過中國，這顯然是不客觀的。

Frontier的基本情況

有人可能會覺得只比較節點太過於武斷，其實早在2016年中科曙光就正式啓動了E級超算的研製項目，2018年前後同時在研的有曙光、神威、天河三種技術路線的E級超算，其中進度最快的“天河三號”原型機，2018年7月就通過了驗收，標誌着中國掌握了E級超算相關技術。

但中國超算繼續領跑榜單的情況並未出現，這主要是由於美國對中國超算發展始終持不正常的陰暗想法，蠻橫無理地採用包括單邊制裁在內的手段遏制中國超算發展，導致中國從2020年開始不願意提供中國超算的基準測試數據，並加強了保密措施。正如上海交通大學網絡信息中心副主任、高性能計算專家林新華所説：“進入TOP500是為了促進國際合作，但結果卻適得其反”。

那麼中國是否具有E級超算呢？今年5月，美國田納西大學相關領域的教授傑克·唐加拉認為：“中國是有東西的”，“只是沒有官方的説法”。

無獨有偶，去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名權威人士”的話指出，中國神威·太湖之光的後續型號海洋之光，2021年3月運行基準測試時，穩定運行速度達到了1.05EPlop/s，其時的功率為35MW。

如果該文數據正確，那麼有人説中國的E級超算功耗“將超過三峽發電量的1/3”的説法不攻自破。

國外媒體的猜測並非空穴來風，今年4月中國科學技術大學、國家海洋科學與技術試點實驗室（青島）、北京大學數學科學學院、無錫國家超級計算中心和中國海洋大學組成的聯合團隊，公佈了一篇超級計算機模擬複雜量子多體的文章，文章中介紹了高性能計算環境時報告了sw26010pro的架構。該CPU作為sw26010改進型，擁有6個計算組，每個計算羣有1個管理核心和64個計算核心。而組成太湖之光的sw26010，只有4個計算組，説明sw26010pro單片至少有50%的性能提升，極可能屬於新超算，文章也稱之為“新一代神威超級計算機”。

sw26010pro的架構

同樣基於“新一代神威超級計算機”的還有第一單位為中國科學技術大學的一篇論文，該研究首次實現了長達7天的全球3公里空間分辨率大氣物理-化學全耦合數值模擬試驗。文中提到，數值模擬試驗的規模最大曾經達到過近4000萬處理器核，並且效率仍然達到76.2%。

相關論文

從論文中透露的信息，我們不難分析出兩點內容。一是“新一代神威超級計算機”的規模很大，遠超過神威·太湖之光（最大1000多萬個處理器核）。二是“新一代神威超級計算機”效率很高，須知幾乎沒有超算程序的運行效率高於基準測試。美國的Frontier運行基準測試時，效率也不過能達到理論的65%，還有很大的進步空間。

更為直接的證據來自於2021年一項利用神威·海洋之光實時模擬量子電路的研究。該研究披露，海洋之光的節點高達驚人的107520個！模擬程序的速度可以達到1.1EPlop/s（單精度）或者4.4EPlop/s（F16混合精度）。

由於模擬使用的海洋之光還是片上異構式的超算，1.1EPlop/s（單精度）換算成超算常用的雙精度至少有0.55EPlop/s。如果海洋之光沒有對混合精度進行過優化，那麼4.4EPlop/s（F16混合精度）換算成雙精度就有1.1EPlop/s，這一成績已經與Frontier運行基準測試的成績差不多了。何況模擬程序的效率，幾乎肯定達不到基準測試，海洋之光的實際速度還可能更高。

論文中關於計算速度的表格

因此我們可以放心大膽地認為：中國即使沒有E級超算，也非常接近，中美超算技術並未重新拉開差距，而這些成績還是在西方國家嚴格制裁的情況下取得的。

同時，這麼多的論文和研究，也説明中國超算的應用水平已經達到了相當的水平。固然還有提高的空間，卻不像一些人所説的那樣一團黑。

美優勢在於民用芯片

中美超算水平接近，是否意味着美國超算就不值得借鑑呢？顯然不能這麼説，美國這次超算重新奪魁，一個突出的優勢就在於美國的民用芯片水平很高，並且帶動了像超算這樣的專用領域。

在神威·太湖之光以前，超算的競爭主要是超算系統中調度、分發、通信相關的軟硬件的競爭。每一個節點要麼純CPU，要麼是CPU+加速卡的異構計算方案，為了提高性價比和計算速度，往往還會購買英特爾和英偉達兩家美國廠商的成熟產品，早期的天河系列超算就是典型代表。

天河二號是典型的異構計算

CPU+加速卡方案的優點是將管理（通用計算）和專業計算分開，提高了單節點的計算速度，但缺點是計算的數據會反覆在CPU和加速卡之間傳輸，造成大量的性能浪費。而太湖之光使用的sw26010將兩個部分的電路，集成到了一個芯片上（片上異構），這樣既避免了純CPU不擅長專業計算的劣勢，又避免了加速卡不能和CPU共享內存的問題。

值得一提的是，2010年前後開始，純CPU的方案劣勢太大，越來越少地被採用。而無論是異構計算，還是片上異構，編程都不容易，且掌握起來難度都差不多。不存在中國超算芯片因為不用於商業市場，所以程序兼容性不好的問題。

正是由於這個創新，sw26010在設計團隊規模很小，製程落後整整兩代的情況，實現了和英特爾類似產品相似的功耗和性能。太湖之光的成功，啓迪了後來日本的“富嶽”超算。“富嶽”同樣拋棄了美國成熟的計算方案，購買ARMv8.2-A指令集開發管理核心，並自研專業計算模塊，推出了富士通版的片上異構芯片A64FX。

A64FX的架構和sw26010即使不能説一模一樣，也可算得上極為相似，同樣是四個計算組，就連性能也差距不大。A64FX的理論性能是2.7TFlop/s，sw26010的為3.06TFlop/s。僅就性能而言，2018年推出且工藝更先進的A64FX尚不及2015年的sw26010，足以説明神威超算開發團隊在立項sw26010時獨具慧眼。

A64FX架構介紹

從理論上講，片上異構具有突出的功耗比優勢，因為調度和傳輸浪費的計算性能較少。太湖之光的實測性能與理論性能之比高達74%，日本的“富嶽”更是達到82%，而美國的Frontier由於是傳統的CPU+加速卡架構，只有65%，但是Frontier功耗遠低於“富嶽”，很可能也明顯低於中國的E級超算。這意味着芯片間調度過程中浪費的性能，被每個芯片優異的功耗表現省了回來。

由於美國的半導體封鎖，中國超算芯片不可能運用先進的製程，單芯片功耗比表現不佳情有可原。但日本的富士通A64FX使用的製程與美國的幾乎一樣，性能表現上出現這麼大的差距，只能是兩國民用半導體產業內功相差甚遠。

Frontier是由AMD主導打造的，AMD曾經在與英特爾的商業競爭中受挫，從而差點一蹶不振。2015年，AMD攜帶十年磨一劍的Zen架構再踏征程，在CPU方面與英特爾展開了慘烈的商業競爭。AMD還做GPU，與英偉達也殺得難解難分。伴隨着競爭而來的是，CPU、GPU的功耗比陡峭地下降，性能迅猛地上升。

Frontier使用的是AMD Epyc 7A53 CPU，為了充分降低功耗，這款64核的CPU主頻被限制在了2.0Ghz。雖然AMD不願透露更多信息，外界普遍猜測這款號稱為超算定製的CPU改進是有限的。AMD用於數據中心的芯片本來就有很多64核的芯片，其中有很多的基礎頻率就是2.0Ghz，將其用於超算，主要是限制主頻+芯片特挑。除此之外，AMD的64核芯片早已形成了多條產品線，既有壓低功耗的，也有像Epyc 7H12這樣的高功耗高性能的芯片。

AMD部分64核數據中心服務器芯片

由於AMD的64核系列能夠在商業市場賺大錢，進而投入更多成本進行優化，因此Epyc 7A53雖然投入精力不多，也能在超算市場打出一片天來。

Frontier核心計算部分主要依靠AMD Instinct MI250X加速卡，採用的是CDNA2架構，熟悉遊戲顯卡的人不難想到近年來AMD遊戲顯卡的架構是RDNA2，兩者之間是存在關係的。MI250X加速卡可視為一張專門為計算打造的顯卡，眾所周知美國的CPU設計技術領先世界，但很少有人知道美國的GPU設計技術更是和其他國家拉開了代差。其他國家獨立自主研發的頂尖GPU，絕對性能與美國英偉達、AMD等巨頭之間存在2-3個數量級的差異。

Frontier之所以能在節點數量遠少于海洋之光和“富嶽”的情況下，實現E級超算，關鍵就在於MI250X加速卡突出的性能和功耗比。一張MI250X能提供的理論雙精度性能竟然有47.9TFLOP/s，是富士通A64FX的17倍，要是雙精度運算全是超算應用中較多的矩陣運算，MI250X的理論性能還能進一步提高到95.7TFLOP/s。

MI250X的基本情況

MI250X加速卡這麼強，不光是AMD本身的設計，每塊加速卡上還集成了128GB HBM2e高帶寬內存。現在的超算主要還是馮·諾依曼結構佔主導，內存速度將直接影響計算速度，這種內存比普通的要快得多，目前卻只有少數企業能夠生產。

由於美國有着極為發達的民用芯片產業，因此Frontier作為美國首台E級超算，基本沒在超算理論上費多少心，主要就是依靠近年來民用CPU、GPU功耗急劇下降，GPGPU（計算顯示核心）蓬勃生長的浪潮，極大地提高了每個節點的性能而實現的。

面對此情此景，我們要做的，不是否定過去篳路藍縷艱苦奮鬥的國產超算成就，而要鼓勵民用計算機產業努力升級，直面競爭。超算是計算機產業的皇冠，超算和民用芯片的關係有越來越大的趨勢，只有我們民用計算芯片的寶石足夠大、足夠多，中國超算的皇冠才能更加璀璨。

本文系觀察者網獨家稿件，文章內容純屬作者個人觀點，不代表平台觀點，未經授權，不得轉載，否則將追究法律責任。關注觀察者網微信guanchacn，每日閲讀趣味文章。