華為雲Tokens服務接入384超節點:以“大雜燴”優勢破解AI算力難題
【環球網科技報道 記者 張陽】8月27日,在第四屆828 B2B企業節開幕式上,華為雲宣佈其Tokens服務全面接入CloudMatrix384超節點,通過xDeepServe架構創新,單芯片最高可實現2400TPS、50msTPOT的超高吞吐、低時延的性能,超過業界水平。
過去18個月,中國AI算力需求經歷了前所未有的指數級增長。數據顯示,從2024年初的日均Token消耗量1000億,到今年6月底,日均Token消耗量已突破30萬億,短短一年半時間內增長了300多倍。不僅反映了我國人工智能應用的迅速擴張,也對算力基礎設施提出了更為嚴苛的挑戰。
面對這一挑戰,華為雲於今年3月正式推出了基於MaaS(模型即服務)的Tokens服務,該服務針對不同應用場景的性能和時延需求,提供了在線版、進線版、離線版及尊享版等多種服務規格,為大模型、Agent智能體等AI工具提供了靈活、便捷且低成本的先進算力解決方案。
華為雲Tokens服務接入CloudMatrix 384超節點,標誌着算力構建的一次重大飛躍。這一成就並非單點突破,而是涵蓋了從硬件到軟件、從算子到存儲、從推理框架到超節點的全棧創新,充分展現了華為“大雜燴”式的綜合技術實力。

首先,CloudMatrix384超節點以全新的計算架構創新,突破性能瓶頸,構築穩固澎湃的算力根基;CANN昇騰硬件使能,優化算子與高效通信策略,讓雲端的算力能夠以最高效的方式被調用和組合;EMS彈性內存存儲打破AI內存牆,突破性地實現“以存強算”,徹底釋放了每一顆芯片的算力;xDeepServe分佈式推理框架則以極致分離架構Transfomerless讓超節點釋放出更高效算力。
作為CloudMatrix384超節點的原生服務,xDeepServe的奧秘在於“拆”與“合”
它把MoE大模型拆成可獨立伸縮的Attention、FFN、Expert三個微模塊,相當於在一台CloudMatrix384上把“大模型”拆成“積木”,並分派到不同的NPU上同步處理任務。之後,再用基於內存語義的微秒級XCCL通信庫與FlowServe自研推理引擎把它們重新拼成一個超高吞吐的LLM服務平台,即Tokens的“超高速流水線”。通過xDeepServe不斷調優,最終實現了從非超節點單卡吞吐600tokens/s至超節點單卡吞吐2400tokens/s的提升。
作為硬件加速計算的中間層,CANN包含多個算子庫和和XCCL這種高性能通信庫等組件,共同支撐AI模型的高效運行。其中,XCCL作為專為超節點上的大語言模型(LLM)服務而量身打造的高性能通信庫,能夠充分發揮CloudMatrix384擴展後的UB互聯架構(UB fabric)的全部潛力,為Transformerless的全面分離奠定了帶寬與時延雙重硬底座。
而作為被重構的“去中心”式分佈式引擎,FlowServe把CloudMatrix384切成完全自治的DP小組,每個小組自帶Tokenizer、執行器、RTC緩存與網絡棧,完全自給自足,做到千卡併發也不“擁堵”。
目前,華為雲MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、釦子等主流Agent平台。
華為雲積累了大量模型性能優化、效果調優的技術和能力,從而實現“源於開源,高於開源”,讓更多大模型可以在昇騰雲上跑得更快更好。以文生圖大模型來説,在輕微損失畫質的情況下,通過Int8量化、旋轉位置編碼融合算子等方式,在在華為雲MaaS平台實現了2倍於業界主流平台的出圖速度,最大尺寸支持2K×2K。而在文生視頻大模型上,不僅通過量化方式來提速,還通過通算並行等方式,降低延遲與顯存佔用,大幅提升視頻生成速度,相較於友商實現了3.5倍的性能提升。華為雲Tokens服務在性能、模型適配、效果調優方面的基礎,也讓更多企業能夠快速開發和構建AI Agent。

而在應用層,華為雲已與超過100傢伙伴攜手深入行業場景,共建豐富的Agent,在調研分析、內容創作、智慧辦公、智能運維等領域解決產業難題,讓企業更便捷地擁抱AI創新,加速智能化。如基於MaaS平台推出的今日人才數智員工解決方案,集成了先進的自然語言處理、機器學習和深度學習技術,能實現與用户的智能交互和任務處理,顯著提升服務效率與客户滿意度;而北京方寸無憂科技開發的無憂智慧公文解決方案可以提升公文處理效能,實現政企辦公智能化轉型。
隨着以Token為動力的智能社會全面到來,華為雲正以其系統級創新能力和全新的Tokens服務,為各行各業構築先進算力,助力AI技術加速落地。