上海交大與華為聯合發佈“數據密集型超算示範中心”
【文/觀察者網 周遠方 編輯/尹哲】
7月9日,在2021世界人工智能大會(WAIC2021)上,上海交通大學與華為公司聯合發佈了“數據密集型超算示範中心”。這是雙方繼4月份聯合成立“高性能計算&存儲技術聯合創新中心”以來的又一重磅合作。
上海交通大學黨委常委、副校長奚立峯,上海交通大學網絡信息中心副主任林新華,華為數據存儲與機器視覺產品線總裁周躍峯博士等嘉賓出席並見證。

上海交大與華為聯合發佈“數據密集型超算示範中心”
何謂“數據密集型超算”?
華為數據存儲與機器視覺產品線總裁周躍峯介紹,近年來,隨着新技術的應用和新興業務的快速發展,超算業務發生了重大改變,現在參與計算的數據越來越多,比如説一輛自動駕駛汽車,每天訓練所需數據大約60 TB,衞星遙感遙測、天氣預報預測等等領域的超級計算需要大量的數據參與存儲計算,傳統的超算架構,已經遠遠不能夠滿足現在新型應用的需求。這也是“數據密集型超算”這一創新理念的由來。
上海交通大學網絡信息中心副主任林新華介紹,所謂“數據密集型超算”是相對於傳統超算而言的。在本世紀初,配置超算時,存儲基本上是計算系統的附屬品,一般會花60%-70%的精力來配置CPU、網絡等等,最後再花10%-20%的精力配置調試數據和文件系統。
但是,從近10年的發展來看,數據的重要性慢慢超過了算力本身。以一個比較通俗的例子來説,如果某一天我們的手機丟了,可能最焦慮的是手機上的數據丟了,手機本身可能也會讓人心痛,但硬件是可以用錢買到的,而數據丟了可能會很麻煩。所以,以數據為中心打造算力的理念,現在變越來越重要。
數據密集型超算以數據為核心來打造算力,我們先配置好一個數據量在20P左右的龐大的數據池,不管是x86的算力平台還是arm的算力平台,都可以插入數據池中。底層的數據池是穩定的,也可以擴容,算力可以靈活配置,這樣,不管是對用户還是運維來説,都帶來極大的便利性。
對用户來説,有時候有些數據需要用不同的算力計算,有時候需要用x86算完以後,再用人工智能來算,過去,這隻能把大量數據從一台超算拷貝到另一台超算,非常麻煩,現在,數據池是統一的,算力只是上面插入的一個工具,可以隨時切換。“這就好比吃飯”,林新華説,“不同的算力相當於勺子、叉子、筷子,不管用什麼工具,關鍵是要吃到下面的飯”。
對運維來説,過去,如果配置了一台新的超算系統,就必需把老的系統上的數據都遷移到新的系統,對超算動輒數百TB,甚至PB的數據量來説,這個過程費時費力,還很有可能造成數據錯誤。數據密集型超算從理念上顛覆了這種方式,數據層不需要動,算力就像插件一樣,可以根據需要插入和調換。

對存儲提出更高要求
雖然説數據密集型超算的便利性顯而易見,但從存儲技術上,就提出了很高的要求。
林新華介紹,交大的“數據密集型超算示範中心”主要基於華為OeanStor Pacific高密專用硬件,其併發量和訪問性都相當好,目前,交大的幾個算力平台的CPU核總共有30000多個,在同一個並行文件系統中都可以穩定運行。
周躍峯介紹,存儲作為超級計算系統的數據底座,在傳統超算HPC向數據密集型超算HPDA升級的過程當中,我們需要解決幾個挑戰,第一,數據量越來越大,第二,數據的類型越來越多,參與計算的數據類型,從過去的二進制文件到今天的非結構化數據,類型層出不窮。第三,不同類型的數據在計算的過程當中需要進行流動,而且需要實現多種協議共享一份數據,避免數據耗時費力的遷移。為了解決這些挑戰,我們和上海交大一起共同打造了數據密集型超算示範區,希望為這些世界級的難題提供答案,提供我們商業級的解決方案。
華為方面進一步介紹,首先,解決海量數據存得下的問題,華為OeanStor Pacific高密專用硬件,基於全新的高密架構設計,提供更高的容量利用率,在有限的機房空間裏存下更多數據,更好地滿足海量數據增長的需要。
第二,支撐混合負載問題,交大的超算平台,有時並行任務高達50個,有的任務要求頻繁的小數據量的讀取,也有的任務要求大文件的快速讀取,因此需要性能更加均衡的存儲。華為OceanStor Pacific推出了新一代分佈式並行文件系統,同時支持高帶寬和高IOPS,通過與分佈式並行客户端(DPC)的密切配合,打破單流和單客户端的性能瓶頸,有效應對混合工作負載的挑戰。
第三,由於數據量的增大、數據應用的複雜化,數據在不同環節、不同系統間高效流動是數據密集型超算面臨的一個主要挑戰。華為推出多協議互通能力。多個存儲服務同時訪問一份數據,支持NFS、CIFS、HDFS和S3等協議的按需部署,通過其中一種協議寫入的數據,無需遷移即可被其他協議讀取,提高跨環節、跨系統的數據分析效率。
周躍峯表示,華為希望在世界中國數字化的浪潮過程當中,特別是在中國東數西存、東數西算的大背景下,通過上海交大和華為公司的合作,能夠儘快使最新研究成果產業化、商業化,幫助國家各個行業真正實現數字化,真正實現超級計算走向平民化,解決我們生活生產當中的各種問題。

中國高校首套arm架構超算
除了實踐數據密集型理念,上海交大的“數據密集型超算示範中心”也是國內高校建設的第一台arm架構超算。
林新華介紹,雖然上海交大一直以來在超算方面投入領先,在2018年建成了在國內高校中排名前列的x86超算,但運行兩年多之後,整個平台使用率已經達到90%以上,因此,考慮把計算能力進一步擴容。
林新華介紹,經過多方調研,發現中國的天河E級的原型機、目前全球公開算力排名第一的日本富嶽等超算都是基於arm架構,前景廣闊。新超算從去年12月份開始建設,到今年4月安裝調試完成,共有約100個節點,12800核,目前已把原先x86上運行的30-40%應用導流到arm超算。
林新華坦言,作為國內高校中首個建設arm超算的單位,在建設和調試過程中,不可避免地踩過一些技術“坑”,歸納起來主要有四點:
第一,有沒有軟件,目前,arm生態仍然在起步階段,許多用户需要的應用在平台上還沒有,針對這個問題,上海交大與華為合作,已成功編譯安裝十幾種常用應用軟件;
第二,算的對不對,計算結果是否可信,這一般通過兩種途徑驗證,一是仿真計算結果是否符合實驗結果,二是arm平台計算結果是否與x86平台一致,在普通人看來,這可能不是問題,但是在科學計算領域,確實需要複雜的調試;
第三,是否是高性能,這仍然需要調試,arm平台在未經調試的情況下,性能比x86平台弱,但調試後明顯加強;
第四,用户使用是否方便,目前arm對每個人來説,都是既熟悉又陌生,因為我們的手機都是arm架構,但確實沒有使用過arm架構的超算,我們通過培訓、講座、編寫教材等方式,讓用户快速入門使用。
經過四個月的努力,目前在上海交大arm超算平台上,首批測試了生命科學、材料科學、氣象科學等8個領域的應用,其中5個應用的結果正確性已經完成驗證過。

通過項目合作培養人才
林新華還強調,在與華為的合作中,除了技術層面的合作,在人的培養教育方面同樣重要,上海交大作為一所高校,本職工作就是教書育人,在“數據密集型超算示範中心”項目上,具體要培養兩種人,一種是懂“數據密集型”和arm架構超算的用户,另一種是懂得安裝調試超算的人才,也希望能夠與同行多交流經驗。
在上海交通大學黨委常委、副校長奚立峯看來,人才培養尤其重要,去年,任正非將上海交大作為國內高校訪問的第一站,他希望大學像燈塔一樣照亮自己的學生。上海交通大學也一直在這樣做,非常願意把教授,以及本科、碩士、博士畢業生輸送到華為,雙方都願意在人才培養方面做更多的合作和貢獻。

上海交大黨委常委、副校長奚立峯強調人才培養