華為陳默博士:以MUST為基,引領技術,構築高性能數據存儲底座_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2020-09-30 01:17
2020年9月28日,第十六屆全國高性能計算學術年會(CCF HPC China 2020)在鄭州召開。“HPC CHINA”與“德國ISC”、“美國SC”並駕齊驅,被譽為世界三大超算盛會之一,已歷經15載沉澱。
在此次大會期間,華為舉辦了《華為高性能計算解決方案高層研討會》平行論壇,聚焦華為高性能計算技術實力。論壇上,華為數據存儲與機器視覺產品線解決方案設計部部長、首席架構師陳默博士發表了題為《以MUST為基,構建新一代HPC存儲系統》的演講,給產業界帶來華為對存儲系統的思考。

首先,陳默博士介紹高性能計算在發展中出現了幾大趨勢:
第一個趨勢是數值計算和數據分析結合,HPC走向HPDA、HPC-based AI融合。這裏指的是高性能計算和大數據、人工智能技術的融合,而這個融合又分為兩種,分別在兩個層面發生。
應用層面發生的融合是,原有高性能計算的應用需要用傳統的數值計算方式完成,用超算解公式,算結果。但是,原先使用傳統科學計算的學術研究中,越來越多地使用人工智能深度神經網絡技術,為未來計算設施的融合奠定了基礎。
比如來自高校的分子動力學學者在前沿論文中做過一個實驗,採用了兩種方法:其一是用傳統的數值運算擬合曲線;其二是用人工智能的方式,也就是用深神經網絡的方式訓練曲線。最後,兩條曲線對比發現,基本上是完全一致的。這個例子説明,在部分場景出現了人工智能計算和傳統數據計算的融合,類似這樣的研究為基礎設施的融合提供了前提。伴隨上層應用需求的融合,下層的基礎設施便於採用一致的方式提供服務。如果上層應用需求無法融合,那麼下層計算則需要更多的異構調度。
另一個融合發生在底層的基礎設施層面。原先高性能計算資源利用率不高的情況,遇上大數據和人工智能大算力的需求,如何讓高性能計算適配這種新需求、新變化。
第二個趨勢是數據量爆發,異構計算加入,對存力提出更高要求。比如基因測序和遙感衞星,圖片分辨率提高,數據量必然增加。又如油氣勘探中的圖像數據,由二維變為三維,結果也是數據量激增。還比如,無人駕駛中,每輛車訓練數據能達到60TB每天。以前,算力和存力相互匹配,協同發展。但是人工智能革命發生了,人工智能是一種很耗算力的技術,尤其是GPU的引入,使算力消耗指數級上升,而存儲還在“正常”發展。算力和存力的“剪刀差”越來越大,給存儲留下了發展機會。
第三個趨勢是數據增長和業務實時性需求提升,對存儲安全可靠提出了更高要求。Hypersion 2019年的數據顯示,在過去一年中,全球超算中心的77%被存儲故障所困擾。其中,12%的超算中心一年面對10次以上的故障。而現實情況是,以數據增長和業務實時性的要求,超算中心對可靠性的要求不會倒退,會越來越高。
第四個趨勢,數據出現了熱數據、温數據、冷數據的分化,熱數據高性能、冷數據大容量、海量數據流動管理是挑戰。熱數據一般存放在高性能閃存介質中,偶然使用或者訪問的温數據需要考慮讀取存儲的性能,放在HDD大容量池,而低頻使用數據則會存在低價值的存儲介質中,比如藍光磁帶庫。與此同時,數據管理的複雜度也大大增加。
隨着產業的發展,高性能計算存儲系統面臨着4個挑戰。架構方面要支持多樣性的算力,多種協議接口。性能方面要支持更高的通量,需要更強的計算能力來匹配。還要滿足國家安全與可靠性的要求。最後,數據在全生命週期都是可管可控的。另外,大數據有三個副本,備份安全可靠,但是在超算中心,數據一旦丟失,便無法計算。
陳默博士繼續介紹:“其次,新型高性能計算的發展,完全是需求和應用驅動的。”
他強調,結合以上趨勢,高密和高性能不足以概括我們存儲的所有能力,對下一代存儲的要求湧現,包括多協議互通、數據流動和數據全生命週期管理。以前,高性能計算是基於文件的存儲接口,現在,大數據是HDFS的接口,人工智能是對象的接口。如果沒有多協議互通的能力,就需要有三份數據,三套存儲。
由於歷史的原因,不同的應用對存儲的訪問方式不一樣。大數據時代,谷歌定義了HDFS。雲計算時代,亞馬遜定義了對象。新型高性能智算的時代,華為與大家一起定義MUST。MUST到底是什麼?它的英文全稱是:“Multi-protocol interworking framework”、“Ultra-dense and performance”、“Security and resilience”和“Total lifecycle management”。
陳默博士總結道:“MUST是協議互通,高密高性能存儲、安全可信和全生命週期的數據管理能力的集合。MUST是新一代HTC存儲系統的一個基本要求。OceanStor Pacific是按照MUST要求打造的新一代HPC存儲系統。”
“我們歡迎更多的朋友,使用華為的OceanStor海量存儲系統,來優化超算場景的性能。IDC全閃存Market Overview數據顯示,華為存儲在中國區市場佔有率第一。不僅如此,華為存儲的全球增長率也排在第一。Gartner主存儲魔力四象限中,華為存儲處於領導者象限。我們對存儲技術的理解與積累應該讓國內更多的力量,朝着正確的方向發展,所以,對於MUST的提出,華為是有底氣的。” 陳默博士補充道。
陳默博士以身處產業前沿的洞察力,建議產業上游,建議學術界多關注超算存儲。他談道:“存儲在超算解決方案裏關注度比較低,注意力集中在研究計算方面,其實存儲中值得研究的內容也很豐富。現在還是學術論文發表的藍海,希望更多高性能計算領域的有志之士能夠多投入精力研究存儲,讓學術研究更貼近產業,貼近需求,為工業界提供源源不斷的創新動力。”
(完)
《親愛的數據》出品
