MLPerf AI存儲基準測試,中國速度領跑_風聞
大数据在线-1小时前
近日,MLCommons協會發布最新MLPerf™ Storage v1.0 AI存儲基準測試成績。
測試結果頗有些意外,卻又在情理之中:以浪潮信息為首的三家中國存儲廠商位列MLPerf™ Storage多項細分評測最佳,中國速度在全球AI存儲權威測試中實現領跑。這既是中國數據存儲產業整體實力近年來穩步提升的客觀反映,也是AI時代中國存儲廠商產品與技術創新能力的集中體現。
隨着AI技術與AI應用不斷進入到千行百業,各大行業圍繞AI、數據要素等發展新質生產力已成為確定性趨勢。可以預見,算力與存力齊頭並進的局面也將全面打開,而中國存儲廠商在AI存儲領域的持續創新,有望推動存算協同效應持續優化,讓AI技術在千行百業中遍地開花。
MLPerf測試:存儲性能的一把新標尺一直以來,性能都是衡量存儲系統的重要指標之一。
過去,SPC測試(Storage Performance Council,存儲性能委員會測試)是存儲系統性能的權威評測;如今,隨着AI大模型獲得越來越多應用,關鍵在於對於大規模海量數據的高效處理,這不僅僅需要強大的AI算力,亦離不開存儲系統在性能、可靠性等方面的有力支撐。那麼,如何衡量存儲在AI場景中的性能、可靠性等能力?
為此,MLPerf™應運而生。MLPerf™ 是影響力最廣的國際AI性能基準評測,由圖靈獎得主大衞•帕特森(David Patterson)聯合頂尖學術機構發起成立,並於2023年推出MLPerf™ Storage基準性能測試,該測試通過準確建模ML工作負載所產生的I/O模式來幫助解決存算平衡問題,為不同存儲系統和不同加速器類型的混合和匹配提供靈活性,為ML/AI模型開發者選擇存儲解決方案提供權威的參考依據。
據悉,MLPerf™ Storage基準性能測試推出兩年時間裏,已歷多個版本迭代,並獲得全球多家廠存儲廠商的積極參與和支持。以本次測試為例,評測圍繞醫學影像分割、圖像分類、宇宙學參數預測三大AI存儲應用場景,採用主流的3D-Unet、ResNet50、CosmoFlow三類模型,在GPU利用率高達90%或70%的條件下,以帶寬和支持的模擬 GPU (模擬加速器)數量為關鍵性能指標,評估單客户端或集羣模式下存儲系統的性能表現。
可以説,MLPerf™ Storage基準測試正迅速成長為衡量存儲在AI場景中性能產品力的一把標尺。浪潮信息存儲產品線副總經理劉希猛介紹,ML commons協會已有超過160個會員,MLPerf™ Storage基準測試建立之初就以架構中立、公平性和可重複性為宗旨,從測試的設計端儘量確保客觀、公正地反映存儲系統在AI場景中的的性能。
再仔細分析MLPerf™ Storage基準測試,其數據格式、測試套件框架、測試邏輯和流程均高度適配真實AI場景,任何存儲廠商均能在相同的、公正的平台上測試自身軟、硬件的產品性能,從而快速評估自身產品的能力。
例如,MLPerf™ Storage基準測試為保證測試公正性,通過運行一個分佈式訓練測試程序,模擬GPU計算過程,最大程度還原AI服務器對存儲系統的訪問,在滿足計算資源利用率和IO時間相同的條件下,比較存儲在同樣時間裏加載和處理數據的利用率,以此來測試存儲系統能夠支撐的最大GPU數量和性能表現。
“像3D-UNet測試不允許提前在主機上緩存數據,數據需要從存儲節點讀取,能夠更加全面、科學體現存儲系統在大規模AI集羣中的性能表現。”浪潮信息分佈式存儲方案架構師Lance Sun介紹道。
事實上,全球有十三家重量級存儲廠商參與本次評測,以浪潮信息為代表的三家中國存儲廠商表現優異。其中,浪潮信息更是主動選擇封閉賽道,嚴格遵循既定配置和代碼規範,其分佈式存儲平台AS13000G7在3D-UNet和CosmoFlow兩個模型共計8項測試中斬獲5項最佳成績,展現出極強的產品競爭力。
中國速度領跑為什麼中國存儲廠商能在MLPerf™ Storage性能基準測試中領跑?
事實上,這更像是中國存儲產業不斷積累和持續成長的必然結果。十年前的SPC測試開始,中國存儲產品逐漸登陸SPC性能榜單之中,那時候中國存儲廠商渴望在國際權威舞台中證明自己,後來甚至屢次上演霸榜的好戲,“不服?跑個分!”成為中國存儲廠商的常規操作。
隨着AI大模型的興起,AI場景的大量湧現,對於存儲系統的性能、多協議、可靠性、數據管理等帶來深遠影響。與SPC那套成熟的測試機制相比,以MLPerf™ Storage為代表的聚焦AI場景的存儲基準測試剛剛起步,尚處於高速發展的階段。此時,中國存儲廠從早期就積極參與其中,更像產業新標準、新規則制定的參與者,是趨勢理解、技術能力、場景洞察等能力的綜合體現。
例如,在本次MLPerf™ Storage基準評測中,浪潮信息率先在Cosmoflow場景中發現問題,即哪怕將數據集放在內存之中,GPU的利用率依然達不到90%。因此,浪潮信息第一時間與MLCommons進行溝通,反饋測試套件、平台標準的缺陷,並與英偉達等公司一起討論、論證,最終制定出Cosmoflow場景GPU70%利用率的標準。
另外,像浪潮信息能夠在3D-UNet和CosmoFlow兩個模型共計8項測試中斬獲5項最佳,離不開其較早涉足大模型訓練、推理等場景的深度實踐,對於AI場景中軟硬協同有着深刻理解,並且從整體架構到軟硬件各個技術棧進行多個層面的針對性創新,從而在MLPerf™ Storage基準評測中實現領跑。
例如,在架構層面,浪潮信息採用自研分佈式軟件棧,通過全新數控分離架構,數據面和控制面完全解耦,實現120 GB/s的單存儲節點超高性能,單存儲節點支撐5台8卡計算節點規模,同時計算集羣GPU利用率90%以上;在軟件層面,浪潮信息通過多路併發透傳技術,有效減少I/O操作中頻繁的上下文切換,降低單次I/O時延50%,並確保高併發下的時延穩定性;在軟硬協同層面,浪潮信息通過內核親和力調度,I/O請求動態調整,增強文件系統與計算節點親和性,確保負載均衡,將數據移動與多核CPU之間的訪問效率提升400%。
劉希猛介紹,針對AI場景的實踐,浪潮信息的存儲產品有兩個核心策略:其一是以客户需求為導向,從實際AI場景應用出發來打造定製化的存儲產品;其二,通過成熟的AI場景解決方案能力來精準平衡客户需求、資源分配與成本控制,為AI場景構建堅實的數據支撐平台。
MLperf後續:存算協同將深入人心毫無疑問,AI大模型徹底改變了基礎設施的規模與複雜性。
如今,隨着AI大模型加速走向各大垂直行業,千卡、萬卡集羣也在不斷湧現,並且多元算力也加速成為主流配置。可以説,在算力側的巨大變化,無疑會進一步全面提高對存儲側在性能、可靠性、容量、功耗和管理的要求。
因此,存算協同在未來必然會獲得更多用户的關注。MLPerf™ Storage基準性能測試無疑開了個好頭,真正從基準測試的維度來衡量存算協同能力,也值得廠商、用户等更多關注。
在Lance Sun看來,MLPerf™ Storage基準性能測試剛剛開展兩年,但在產業界已產生了重要影響,值得持續關注和參與。首先,未來一定會有包括更多中國廠商參與到MLPerf™ Storage基準性能測試中來;其次,未來像向量數據庫、能耗等一些新的規則有望引入,測試標準和規範會得到持續迭代、完善,讓基準性能測試更加科學準確。
綜合觀察,在數實融合和發展新質生產力的驅動下,千行百業加速擁抱人工智能已是大勢所趨。隨着AI大模型技術自身的快速發展,對於算力、存力等基礎設施帶來巨大變革。如何最大化發揮基礎設施的價值,讓存算協同的重要性迅速提升,也驅動着中國存儲產業加速成長與持續創新。MLPerf™ Storage基準性能測試拉開AI存儲賽道比拼的新序幕,以浪潮信息為代表的中國存儲廠商有望在這條賽道中跑出中國速度、引領存儲新變革。