阿里雲吳結生:高性能計算持續創新,響應數據+AI時代的多元化負載需求
*【環球網科技報道 記者 林夢雪】*在數字化轉型的大潮中,每家公司都在積極探索如何利用數據驅動業務增長,而AI技術的快速發展更是加速了這一進程。
阿里雲智能集團副總裁,彈性計算產品線負責人、存儲產品線負責人吳結生在第20屆CCF全國高性能計算學術年會(CCF HPC China 2024)期間談到,如今數據已成為企業不可或缺的資產,而隨着人工智能技術的不斷進步,雲計算與AI的結合正迅速成為企業發展的新趨勢。不久的將來,每家企業都將轉型為“數據+ AI”的新型公司。雲計算持續遵循着Scaling Law,能夠提供大規模、可擴展的計算能力和存儲能力,以適應企業業務和AI模型的不斷擴展需求。通過雲計算,企業能夠加速採用人工智能技術,推動智能化創新的實現。
多元化負載驅動高性能計算創新
當前高性能計算領域正面臨着日益多元化的工作負載需求。從基礎模型的訓練、自動駕駛,到生命科學、工業製造和半導體芯片等前沿領域,高性能計算的應用場景不斷拓展,負載特性也日趨複雜。

“這種多元化的負載需求,對高性能計算提出了全新的挑戰。”吳結生表示,“我們需要通過多樣化的產品、系統架構和技術方案,來滿足不同負載對計算能力、存儲性能、網絡帶寬等方面的差異化需求。”
根據算力耦合度和數據密集度,吳結生將高性能計算負載大致分為極致耦合型、緊耦合型和松耦合型。
針對多樣化的負載需求,阿里雲構建了完整的高性能計算基礎設施,通過相應的產品來滿足不同類型的HPC負載的需求。“靈駿智算服務滿足極致緊耦合的HPC負載需求。典型的代表就是大模型的訓練;E-HPC高性能計算,支持緊耦合的HPC負載;E-HPC Instant計算服務,支持松耦合的HPC負載。”

彈性能力與阿里雲CIPU引領“數據+AI”時代
在談到Cloud HPC(雲上高性能計算)與傳統HPC的區別時,吳結生強調了彈性能力的重要性。
“Cloud HPC的最大優勢在於其彈性能力。”他表示,“通過雲上的資源池和彈性調度技術,我們可以根據客户的需求快速創建和釋放計算資源,實現計算能力的按需分配。這種彈性能力不僅提高了資源利用率,還降低了客户的成本。”
此外,Cloud HPC還具備對異構計算的兼容性和快速部署的能力。吳結生指出,隨着AI技術的不斷發展,異構計算已經成為高性能計算的重要組成部分。阿里雲通過提供對GPU、FPGA等異構計算資源的支持,以及一鍵部署、自動化管理等便捷功能,為客户提供了更加靈活和高效的高性能計算解決方案。
他進一步強調,Cloud HPC的優勢不僅在於其技術能力,更在於其能夠與客户的業務流程緊密結合,提供端到端的整體解決方案。通過彈性高性能計算平台E-HPC,整合計算、存儲、網絡和安全等方面的能力,阿里雲幫助客户實現了業務流程的優化和效率的提升。
在採訪過程中,吳結生還多次提到了阿里雲自研的CIPU(雲基礎設施處理器)的價值。他進一步指出,通過整合CPU、GPU和加速卡的能力,CIPU架構為阿里雲提供了強大的差異化競爭力。無論是在大數據處理、高性能計算還是AI訓練等領域,CIPU架構都發揮了重要作用。“我們從2017年開始,一直致力於 CIPU 的創新和演進。最近我們發佈了 CIPU 2.0,在安全、穩定性、性能等方面得到全面的升級。”吳結生進一步分享道。CIPU 2.0 支持更高性能的彈性 RDMA,進一步加強了 E-HPC 使用彈性 RDMA 支持 HPC 負載的能力。
智算為基,阿里雲助力多行業駛向數據+AI的“高速路”
寫一篇旅行攻略需要篩選目的地、預訂交通住宿、規劃行程等,耗時又費力。用户使用AI大模型時,只需要簡單的“幫我寫一篇去**的旅行攻略”提示詞,幾秒內就可以生成一篇詳細的旅行規劃。寫宣傳文案、寫論文、做會議總結,做各類圖像和視頻內容等,在AI浪潮下,各類大模型應用產品將很快成為許多人工作生活的“標配”。
但是在大規模的模型訓練過程中,經常會遇到各種原因而被迫中斷。事實上,大模型的預訓練過程依賴於集羣化架構,需要構建包含成千上萬張加速計算GPU卡的大型集羣。這個集羣本身就像一個巨大的整體,任何單個節點的故障都可能導致整個訓練過程的暫停。吳結生比喻説,訓練大模型類似於一羣人兩兩綁腿一起行進,這種並行協作的方式一旦有成員反應遲緩或跌倒,整個團隊的前進就可能受阻。
“讓每張GPU卡,每台機器都以相同的‘步伐’前進,才能提升整體的模型訓練效率,這也是阿里雲與頭部大模型客户共同在推進的一個重要方向”吳結生説道。
月之暗面作為一家創業型的大模型與AI應用公司,憑藉其獨特的Kimi智能助手APP迅速嶄露頭角。這背後離不開阿里雲強大的計算平台支持。月之暗面的大模型訓練與AI應用擴展,對於計算性能、穩定性以及效益都有着極高的要求。阿里云為月之暗面提供了一個大規模、高性能且穩定的智算平台,確保了大模型訓練的順利進行。同時,阿里雲還通過優化資源配置與調度,為月之暗面提供了高性價比的解決方案,助力其在激烈的市場競爭中脱穎而出。
在汽車製造業,“卷”價格、“卷”技術已經不是新鮮事,車企們不斷推陳出新,不僅要在續航里程、充電速度等硬指標上領先,還要在駕駛體驗、個性化服務等方面贏得用户的心,這些都離不開汽車廠商在研發效率上的提升。
以汽車廠商為例,阿里雲通過其彈性高性能計算(E-HPC)服務,為汽車廠商提供了一個全流程的仿真計算解決方案。在這個平台上,工程師們可以高效地進行汽車設計、模擬測試與優化改進等工作。“得益於阿里雲的高性能計算、網絡與存儲技術,仿真計算的效率得到了顯著提升,達到了25%的增長。這不僅幫助汽車廠商實現了研發目標,還為其節省了大量的研發費用。”吳結生説道。
在生命科學領域,藥物計算過程波峯算力需求大、平均算力與波峯之間相差懸殊等問題一直是制約新藥研發效率的關鍵因素。阿里雲通過E-HPC Instant產品智能調度全局資源,望石智慧的科學家們可以靈活申請所需的算力資源,進行大規模的藥物計算與模擬實驗。吳結生補充稱,“得益於阿里雲的海量的計算資源,藥物計算的效率得到了顯著提升,同時成本也降低到了原來的三分之一。不僅加速了新藥研發的進程,也為望石智慧在激烈的市場競爭中贏得了寶貴的先機。”
進入AIGC新時代,人工智能應用需要不斷夯實算力底座。作為引領未來發展的關鍵力量,算力也是構成新質生產力的重要部分。面對新的科技革命與產業變革,新質生產力是一種更高效、更先進的生產發展模式。它關注的不僅僅是“新”,更重要的是實現“生產力”的躍升與結構的優化。高性能計算為人工智能、雲計算、大數據、物聯網等提供了強大的計算能力。我們期待看到,阿里雲作為雲計算行業的引領者,與基礎模型、智能駕駛、生命科學、能源、製造等行業玩家共同攜手,持續帶來更多產業應用的發展。