樊春:以算網融合助力“東數西算”發展
【環球網科技綜合報道】12月15日消息,以“新算力 新賦能 新未來”為主題的2022 CCF全國高性能計算學術年會(CCF HPC China 2022)近日在線上正式召開。北京大學計算與數字經濟研究院算力網絡研究中心主任樊春應邀參加本次大會第七屆高校高性能計算平台應用交流論壇並作《北京大學高性能計算系統軟件》主題演講。報告分析了目前我國算力中心在使用和管理中存在的痛點,並提出了相應的解決方案。會上,由樊春團隊自主研製的開源算力中心門户和管理平台——SCOW(Super Computing On Web)首次公開亮相。

據介紹,我國“東數西算”工程的全面啓動,為全國一體化算力網絡建設按下了加速鍵,但同時我們仍面臨算力中心管理運營難、算力資源使用門檻高、算力系統運維部署複雜等痛點。
北京大學計算與數字經濟研究院自落户長沙以來,緊隨時代步伐,聚焦國家戰略需求,成立了算力網絡研究中心。中心團隊多年深入一線運營,深刻理解用户需求,積累了豐富的算力中心平台運行維護經驗,具備先進的互聯網系統開發技術;通過十餘年的研發,成功打造了開源的算力中心門户和管理平台——SCOW。該平台系統通過簡化集羣軟件部署流程、統一平台管理模式、提供圖形化操作界面、降低用户使用門檻,實現算力中心資源易管理、易使用的目標,提高算力資源使用效率。截至目前,SCOW已完成了在北京大學超算平台、國家天文台超算平台、中南大學超算平台、中科院高能物理所超算平台、香儂雲超算平台等多個平台的部署。
在使用上,SCOW系統大幅降低算力中心用户的使用門檻。用户無需瞭解和配置SSH、VNC 等功能,便可通過SCOW的門户平台直接在瀏覽器上使用集羣算力資源,讓Linux小白用户也能順利提交作業。在管理上,SCOW的管理平台提供了一套標準化的算力中心管理模式以及用户賬户模型(租户-賬户-用户三級模型)和計費收費模型,並且支持多集羣管理,可以在一個系統內管理算力中心的多個集羣,能夠幫助新建的算力中心快速建立管理和運營制度。在部署上, SCOW提供了簡易的部署功能,項目具備了包括調度系統、認證系統、共享存儲在內的一體化部署能力,可以快速在新建的集羣中部署上線。部署幾乎無侵入,可與其他管理平台共存。
SCOW實現的一套標準的平台接口,為實現跨中心的算力融合打下了基礎。團隊正在SCOW實現的異構平台統一抽象基礎上,進行一體化算力網絡融合平台的研製,旨在打通算力網絡中各算力中心的管理、使用、結算通道,連通算力孤島,實現算力靈活接入、統一調度;解決多應用靈活接入,複雜網絡環境下低延遲高性能應用可視化技術,多中心多集羣文件傳輸與管理,算力中心的標準化運營管理,多中心統一結算等問題。
據悉,今年11月26日,在數字生態指數2022發佈會上,北京大學計算與數字經濟研究院聯合湖南省內多家機構成立了“湖南算力網絡融合協同創新平台”,共同促進一體化新型算力網絡體系建設。本次SCOW系統的發佈,也標誌着創新平台的工作正式啓航。接下來研究院將在國內高校、科研機構、國家超算、商業集羣中做好SCOW的推广部署工作,並繼續研發面向算力網絡的新產品,為優化我國算力資源使用效率、促進算力網絡體系建設貢獻力量。