WAIC2022:燧原科技發佈雲燧智算機,推進雲端算力產業應用
日前,在2022世界人工智能大會“算盡其用·定義AI算力中心新實踐”雲端算力產業應用論壇上,燧原科技正式發佈雲燧智算機(CloudBlazer POD)。雲燧智算機是針對大規模、集約化人工智能算力應用場景推出的高性能人工智能加速集羣產品,通過一站式預集成人工智能加速硬件、一體化開發與管理平台及配套人工智能應用軟件與服務,可廣泛應用於數字政府、科研院所、科創平台等企事業單位。
作為國內已落地超千卡規模液冷AI集羣的人工智能算力企業,燧原科技的第一代和第二代“邃思”芯片均已實際應用於大規模AI集羣工程中,支撐融媒體生成、城市智能感知等多樣化場景。根據過往落地實踐,燧原科技發現,人工智能數據中心因其軟件運維複雜,普遍具有方案選型難、各廠商產品兼容未知等痛點,而且數據中心部署交付週期長、溝通成本高、項目管理週期長。
據悉,雲燧智算機採用一體化設計,是專為人工智能場景下計算、存儲、網絡、軟硬協同設計的標準化產品,提供高可用的整體安全設計,確保集羣架構擴展性能符合預期,提供包括採購、安裝、運維一體的交鑰匙方案。對數據中心的環境和IT計算資源提供全面的監控和管理,提高集羣部署、測試的質量和效率,輔助用户提升運營效益和降低運行成本,幫助用户提升運維價值,為用户實現AI算力中心從交付部署到後期上線及運維管理全生命週期中的優異總擁有成本(TCO)。
雲燧智算機代表了燧原科技經過多個大規模工程實踐所形成的計算、網絡、存儲的整體設計:以全局優化為目標,基於計算、存儲、管理網絡分離,全互聯無阻塞的網絡架構,結合高效的多級存儲方式,在強大的“邃思”芯片與CPU的異構算力支撐下,雲燧智算機能夠提供卓越的AI性能。

基於雙碳目標以及綠色環保的總體趨勢,無論是新型數據中心的規劃建設,以及東數西算的政策性要求,都對數據中心整體能效(Power Usage Effectiveness,PUE)有明確的優化指標性要求。雲燧智算機採用一體化冷板式液冷技術,實現單節點8顆高性能人工智能芯片液冷散熱,通過液冷板等高效熱傳導部件將被冷卻對象的熱量傳遞到自然冷媒中,採用先進流量控制系統,大幅提高流量變化範圍、降低能耗,擁有架構簡約、系統可靠、智能監控等特性,PUE可降至1.1及以下。
依託於“邃思”芯片核心能力,在典型配置下,雲燧智算機每單元可達到8PFLOPS的TF32浮點算力,並且支持按需橫向擴容,可支持數千卡規模集羣,突破E級算力,打造業界領先的超級算力集羣。
目前算力構成複雜,多CPU架構,多異構計算單元,並且考慮到集羣本身一般服務於多用户、多場景的特性,如何能夠對上層用户屏蔽底層算力異構性、賦能用户高效開發與部署上線AI應用,真正釋放集羣作為生產力工具的價值——軟件是關鍵要素。
燧池智算平台(CloudBlazer Station)是全棧式人工智能開發服務平台和通用的大規模算力管理平台,結合強大的雲燧AI算力集羣和先進的大規模算力資源調度,為用户提供人工智能模型生產及應用發佈的全流程服務能夠一站式滿足複雜的人工智能業務場景對人工智能服務的需求。

大規模數據訓練超大參數量的巨量模型是人工智能的發展方向,“預訓練大模型+下游任務微調”的模型開發方式將極大提升企業的AI應用開發效率,開發者只需要少量行業數據就可以快速開發出精度更高、泛化能力更強的AI模型。
而訓練出一個大模型,除了算法和數據,還需要超大規模的算力支撐。基於雲燧智算機所構成的大規模集羣解決方案採用高帶寬、全互聯拓撲架構,計算、存儲、管理網絡全分離,計算節點內基於GCU-LARE2.0多芯互聯技術提供近1TB/s的互聯帶寬,跨節點互聯能力高達600Gb/s,可實現千卡級大規模集羣高速互聯,具備優異的線性加速比以支撐超千億參數巨量模型的高效、並行訓練。
燧原科技創始人兼COO張亞林表示:“雲燧智算機是結合了雲燧訓練和推理產品在行業落地的實踐經驗,以全方位降低AI算力中心部署和應用成本為目標所推出的全新系統一體化產品,面向大規模、集約化、綠色低碳數據中心建設。”