HBM價格暴漲之際,華為開源AI推理加速關鍵技術

(文/觀察者網 呂棟 編輯/張廣凱)
高帶寬內存(HBM)的價格又要大漲了。
當地時間11月5日,熟悉韓國存儲巨頭SK海力士的人士確認,該公司明年向英偉達供應的HBM4單價約為560美元(約合人民幣3991元),比目前供應的HBM3E(約合370美元)價格高出50%以上。
高端的HBM這麼貴,並且中國還遭受出口管制,有沒有辦法減輕對這種產品的依賴?
華為剛開源的技術或許能成為其中一個解決之道。11月5日,華為宣佈針對AI推理加速的關鍵技術——UCM(Unified Cache Manager)推理記憶數據管理正式開源。
這種技術的關鍵之處在於,可以根據記憶熱度,在不同存儲介質中分級緩存數據。比如在HBM中存儲“即時記憶數據”,在DRAM中存儲“短期記憶數據”,在SSD中存儲“長期記憶數據與外部知識”。
這麼做的好處是,可以分級管理推理過程中產生的KV Cache記憶數據(優化計算效率、減少重複運算),充分利用不同存儲介質的特性,提高HBM的利用率,還能平衡成本。
華為透露,UCM架構包含了多個協同工作的關鍵功能模塊,比如UCM稀疏化模塊(UcmSparseBase)、稀疏化KV管理器(SparseKVManager)、KV Cache存儲組件 (UcmKVStoreBase)和UCM連接器(UC Connector)等。基於該架構,UCM目前具備四大關鍵能力:稀疏注意力、前綴緩存、預填充卸載和異構PD解耦,可實現首Token時延最高降低90%,系統吞吐最大提升22倍,並達到10倍級上下文窗口擴展。

圖源:華為數據存儲
配合UCM技術,華為今年8月曾經推出多款高性能AI SSD。比如,Huawei OceanDisk EX 560的隨機寫性能最高可達1500K IOPS,適用於AI一體機訓練場景;Huawei OceanDisk LC 560最大單盤物理容量245TB,讀帶寬可達14.7GB/s,適用於集羣訓練場景等。
“AI SSD聚焦提升訓練效率和推理體驗, 存儲器領域不會僅有HBM一枝獨秀,有望形成百花齊放的競爭態勢。華為計劃與一體機廠商合作,改變現有局面,為AI存儲器市場注入新活力,帶來更多可能性。”有知情人士對觀察者網説道。
當下,國外廠商在HBM領域仍然擁有技術和價格的主導權。Counterpoint Research的報告顯示,SK海力士在二季度的全球HBM市場上以62%的出貨量佔據首位,美光科技(21%)和三星電子(17%)緊隨其後。按照SK海力士的產品計劃表,HBM4已於9月完成開發並投入量產,將於今年第四季度開始出貨,並計劃於明年全面擴大銷售。
HBM4是HBM第六代產品,其2048位接口和最高16層的堆疊將帶來帶寬和容量的巨大提升,帶寬目標超過2 TB/s,容量可達64GB。業界特別是三星和SK海力士正在探索將HBM堆棧更直接地連接到處理器(如GPU)芯片上,甚至研究在中間層使用光子技術以追求極致的傳輸速度和能效。這種深度融合可能會模糊邏輯芯片和存儲芯片之間的界限,讓兩者更緊密地集成在一起。
在出口管制和技術追趕下,中國企業難以獲得充足的高端HBM。而UCM作為一種記憶數據分級管理技術,開源的關鍵意義,在於能讓更多開發者和企業通過記憶數據分級管理,降低對高端HBM的依賴。但它不是為了取代,也無法取代HBM,而更像是華為的另一種“系統補單點”,把HBM的優勢發揮在更合適的地方,實現降本增效。
除了推出UCM,華為在今年的全連接大會上還公佈了自研HBM。
華為輪值董事長徐直軍當時表示,華為自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成芯片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。其中Ascend 950PR採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。
本文系觀察者網獨家稿件,未經授權,不得轉載。