青雲發佈EHPC高性能計算平台:將雲計算融入超算應用場景
【環球網科技報道 記者 勃潺】高性能計算(HPC)的可擴展性和普遍性正在深入日常生活。現階段,超級計算已經推動了科學探索的發展,並能夠幫助解決氣候變化和慢性病治療等關鍵問題。
而在具體應用方面,高性能計算與產業的結合越發緊密。從金融到醫療,越來越多的數據分析,需要高性能計算的強力支撐以獲得更快更穩定的解決方案。
11月23日,青雲科技對外發布QingCloud EHPC產品,基於青雲公有云IaaS平台、PaaS平台的雲基礎設施,為用户主要提供公有云服務,為有需求的用户提供專屬雲和混合雲等多種形態的產品。
在接受記者採訪時,青雲雲平台&服務部高級總監陳海泉表示,青雲的超算雲平台可以完美地支持大數據和人工智能融合的超算業務,並且以雲服務的方式提供,讓超算資源更便捷地交付給用户。
提供多場景適配
據QingCloud EHPC 產品經理苗慧介紹,此次推出的QingCloud EHPC高性能計算平台應對的是生命科學、CAE仿真、海洋氣象等相關領域的高性能計算需求,提供豐富多樣的使用模式,適配多種應用場景。通過統一管理的平台,使不同領域的工程師、研究人員可以突破本地的HPC基礎設施限制,快速開始雲上創新。
QingCloud EHPC 提供雲上超算 SaaS化服務,方便快捷讓作業運行起來。通過青雲的彈性公網IP、公網帶寬,將數據進行快速的上傳、下載,與本地數據同步。
從客户羣來看,QingCloud EHPC覆蓋青雲的終端用户,從雲上計算到雲下結果產出的一個全流程計算服務平台,青雲的用户可以在幾分鐘內,將雲上工作快速運行起來,快速完成計算作業。
從服務構架來看,QingCloud EHPC的服務架構主要分為三層,分別是資源層、管理層和用户端。
資源層主要包含青雲的計算、存儲和網絡資源,以及相應的後台調度器、調度管理平台以及可視化服務平台。
管理層主要提供SaaS化的服務,從開始作業到作業運行結束,系統將自動進行折扣信息計算、計量計費和作業監控服務,能夠保證用户進來之後,對團隊項目、團隊項目權限等相應的管理。
用户端是用户控制枱,用户可以進行創建集羣、管理集羣、彈性伸縮、作業提交、作業編排、作業性能分析。通過用户控制枱,用户可以很方便地操作作業。
從產品的構架來看,QingCloud EHPC能夠從資源層上提供高效的資源,從管理層上提供方便快捷的管理服務,從用户端上提供交互使用體驗優秀的用户控制枱。
同時,QingCloud EHPC採用彈性伸縮的計算節點:在業務運行高峯期,青雲可以將計算節點的數量進行擴容,或將計算節點的配置進行提高;在低峯期,可以根據作業量進行縮容。這樣的安排將會大大減少資源投入的費用,提高資源利用效率,為用户提供更加友好的解決方案。
多技術融合 應對新挑戰
苗慧透露,QingCloud EHPC 有豐富的應用軟件。青雲研究傳統的超算中心和現在的雲服務廠商後,通過青雲的技術,將大規模開源軟件及商用軟件放到共享軟件目錄上,用户可以達到即來即用的情況,同時可以輔助用户安裝與使用。青雲提供的300多款軟件中,既覆蓋了像常用的MPI庫、數學軟件等資源,也覆蓋了分子生物學、新能源、新材料、大氣海洋環境、地球、物理等多行業領域。
事實上,從QingCloud EHPC的產品特性,可以看出高性能計算與雲計算的融合趨勢。
高性能計算的用途廣泛,最核心的是用來模擬世界萬物。宏觀上,可以通過衞星圖像、遙感數據、氣象數據利用高性能計算來模擬地球、海洋和氣侯;微觀上,能模擬分子原子來了解生命的原理,使藥物的研發更快速、更精確。
在此背景下,作為前沿科技的高性能計算開始走出高校,進入行業,實現了更多的場景應用落地。與此同時,受益於技術的演進,高性能計算與大數據人工智能和雲計算的融合越發明顯。
在醫藥領域,新冠疫情加速了大數據在醫藥和生命科學上的應用,促進了核酸疫苗和核酸藥物的研發。在金融領域,大數據和人工智能與超算相結合,對各種層面和維度的數據進行分析,通過深度學習技術訓練出模型,應用在風控上,可以讓壞賬率降低35%。
針對大數據、人工智能與超算融合的場景,對超算提出了一定的挑戰。主要體現在,存儲容量比以前大很多,不同類型的業務對存儲的要求也不一樣。因此超算中心需要對不同的業務提供合適的存儲類型。
早先的超算中心圍繞計算資源建設,容量有限、存儲類型單一,難以支撐大數據的場景。而新一代的超算中心有些已經配備了強大的容量,可以承接仿真建模類大數據的業務,但由於超算中心本身提供的服務比較單一,也無法承載大數據業務需求。
同時,隨着人工智能應用的爆發,對超算中心又提出了新的需求:充足的GPU資源以及相應的軟件框架。這些業務往往希望用雲原生的方式來部署和運行。因此,這對以 Slurm 調度器為主的超算中心也是一個很大的挑戰。
因此,青雲希望將適應了人工智能、大數據和超算的基礎設施,在適用不同業務的同時能夠做到儘量複用。這也是此次青雲推出EHPC超算雲—— QingCloud EHPC的一個初衷,可以全面地支持各種新的業務場景。
解決行業痛點
據瞭解,此次推出的高性能計算平台,對於超算最常見的仿真和建模業務,青雲提供了低延時、高帶寬的InfiniBand網絡,高速並行文件存儲以及CPU/GPU的算力組合,不僅能支持大規模求解運算,還能提供 GPU 桌面進行圖形前後處理,完成一個閉環的業務場景。
對於大數據業務,QingCloud雲平台提供的對象存儲容量達 245PB,跟計算節點結合,可以用於大規模的數據處理和分析。計算節點到對象存儲的網絡帶寬有1.6T,能夠保證大數據計算的超高性能。
對於人工智能訓練業務,青雲提供算力達850PFlops的A100 GPU資源池和全閃並行文件存儲,並且能夠結合容器平台,提供性能極致優化、輕量便捷、開源開放的人工智能平台。
此外,QingCloud EHPC還解決了超算中心的另一個痛點——使用方式。傳統的超算中心用户,在使用時,需要提交申請,並且有人工審批的環節,用户得到審批通過後,還需要自己安裝VPN客户端連接超算中心提供的登錄節點。
超算中心的登錄節點往往是很多用户共享的。共享的節點有兩個問題:一是超算中心為了保證其自身安全,不提供 root 權限,給安裝軟件帶來一些麻煩。二是Linux隔一段時間就會暴露出一些系統漏洞,如果被用户利用得到root權限,則能竊取平台上其他用户的數據。
“所以,不方便和不安全這兩個問題,需要用雲平台與高性能計算結合解決。”陳海泉表示,青雲雲平台帶來的一個最大的變化是,把傳統的審批制度變成用户自服務的形式,用户隨時可以自己到雲平台註冊賬號,並且充值購買他需要的計算資源。
青雲保障安全的同時,還能讓整個超算使用很靈活,陳海泉介紹到,青雲提供了兩種不同類型的超算集羣:偏傳統的共享型超算集羣和獨享EHPC集羣。
“青雲有一個願景,希望跟超算中心合作共建算力共享的算力網絡,為超算中心私有化部署的同時,以雲平台連接全網算力提供外部資源支撐突發業務,避免排隊。當超算中心自己的資源空置時,也可以對外出售算力增加運營收入。”陳海泉説道。