華為馬海旭:以創新為世界提供最強算力
9月19日,上海,第四屆華為全聯接大會,華為重磅發佈通用計算和AI計算領域的最強算力產品,開放鯤鵬主板,並優先支持合作伙伴基於鯤鵬主板開發更多的計算產品,給客户更多更好的選擇,共建計算產業生態,共享萬億大藍海。
計算產業正迎來下一個黃金時代,我們在通用計算和AI計算領域堅持戰略投入,持續創新,通過解決世界級計算技術難題,為世界提供最強算力。
通用計算最強算力應具備三個基本特徵
我們知道,熱力推動了第一次工業革命,實現了農耕文明向工業文明的進步。電力推動了第二次工業革命,極大的提升了生產效率,人類社會步入了電氣時代。在以計算機及信息技術為標誌的第三次工業革命,和以人工智能為標誌的第四次工業革命中,算力正發揮着越來越重要的作用。未來社會將進入智能世界,人工智能無處不在,無人駕駛進入千家萬户,智能機器人,智能家居深刻改變人類的生產與生活,而這一切智能應用的背後需要強大的算力。算力是推動智能世界不斷發展的源動力,我們的夢想是打造世界最強算力,成為推動智能世界不斷發展的核心力量。
智能世界需要最強算力的產品,那麼到底什麼是最強算力的產品呢?在通用計算領域,我們認為最強算力的產品應該具備三個基本特徵:
• 多核高併發是普遍需求,因此單個處理器64核應該是起步條件;
• 即時大數據分析、分佈式數據庫等場景需要與內存進行大量的數據交換,具備8內存通道是必然選擇;
• CPU與加速器之間的協同,需要高帶寬低時延的I/O,總線能力升級到PCIe 4.0是當務之急。

但這還不能完全滿足客户對最強算力產品的需求。當前計算架構正從集中式向分佈式演進,僅僅CPU有最強算力還不夠,我們認為還需要具備多合一SoC 、xPU高速互聯實現從CPU到服務器的最強算力,以及通過100GE高速I/O實現從單機到集羣的最強算力。
我們經常説,汽車跑的快不快,關鍵要看發動機是否強勁。最強算力的產品必須要有最強勁的處理器。鯤鵬處理器,集成了64個物理核,SPECint評估跑分高達930分,相比業界主流處理器性能提升了25%。鯤鵬處理器除了性能強勁,還採用了多合一的SoC芯片架構,它不僅僅是一顆CPU,還集成了RoCE網卡、SAS控制器、橋片等,單顆處理器實現了4顆芯片的功能,以一當四!可有效提升主板的集成度,使服務器的體積更小,算力密度更高、功耗更低。
華為研發的Cache一致性總線HCCS,可以實現CPU和CPU之間的高速互聯,通信速率高達每秒30GT,是業界主流CPU互聯速率的2倍多。通過多CPU互聯,我們率先實現256個物理核的NUMA架構,從而推出業界首款兼容ARM架構的最強算力4路服務器。異構計算的興起,使得CPU與NPU之間的互聯協議也很關鍵。華為創新性的將HCCS同樣應用於CPU與NPU的高速互聯,構建了xPU間的統一Cache一致性架構,xPU之間可以進行直接內存訪問,實現高速數據交互。同時基於此架構,可實現通用算力和AI算力的靈活組合,打造最強算力的異構計算服務器。
當前處理器一般通過與外置網卡配合為服務器提供10GE、25GE的接口,在分佈式架構下,要完成一個高算力的集羣組網,更需要高I/O的吞吐能力。鯤鵬處理器是業界首個推出內置直出100GE網絡能力的通用處理器,讓100GE成為服務器的標準配置。從處理器到服務器,擴展到整機櫃和計算集羣,實現全100GE的高速網絡互聯,引領服務器邁入100GE時代,構建最強算力的集羣。
剛才我提到最強算力產品的定義,需要支持多合一SoC芯片架構、xPU高速互聯和100GE高速I/O,那麼有同時滿足這些創新技術的產品嗎?答案是:華為TaiShan服務器。TaiShan系列服務器是當前面向大數據,分佈式存儲,數據庫,HPC,原生應用等場景,兼容ARM架構的最強算力服務器。華為提供了存儲密集型、計算密集型、邊緣計算等多款服務器產品,滿足客户從數據中心到邊緣的多場景部署需求。
通用計算最強算力標杆鯤鵬主板正式發佈並面向合作伙伴全面開放
今天,我將發佈一款在計算產業非常,非常,非常重要的產品!

我宣佈:
鯤鵬主板正式發佈,並向合作伙伴全面開放!
鯤鵬主板,搭載兩顆鯤鵬處理器,128個物理核,內置100GE RoCE;32個內存插槽,支持PCIe 4.0;合作伙伴可以基於這塊鯤鵬主板,開發出多種形態的計算產品。
華為在硬件方面有30多年的研發與製造經驗,各種硬件主板出貨量累計超過10億塊。鯤鵬主板具備業界領先的56G 高速SerDes能力,主板性能提升25%;信號誤碼率低於10的負12次方,故障率比業界平均水平低15%;我們通過創新的DEMT動態節能技術,可以實現能效比領先業界15%以上。合作伙伴基於鯤鵬主板開發的計算產品,具備高性能,高可靠,高能效的優勢,可以100%釋放整機算力。

華為面向夥伴開放通用計算能力 優先支持合作伙伴開發更多的最強算力產品
眾人拾柴火焰高,華為公司會優先支持合作伙伴,基於鯤鵬主板開發更多的最強算力產品,給客户更多、更好的選擇。鯤鵬主板內置了BMC芯片和BIOS軟件,我們將開放主板接口規範和設備管理規範。為了提升整機設計效率和質量,華為把多年積累的硬件工程能力開放出來,提供機箱、散熱、供電、背板等參考設計指南。此外,我們提供內存,硬盤,網卡,操作系統等軟硬件兼容性列表,解決軟硬件基礎生態配套需求。合作伙伴可以基於鯤鵬主板和整機參考設計,快速開發出自有品牌的服務器和台式機產品。因為你們,我們將變得更好。
基於昇騰910的最強AI算力
除了通用計算,華為還壓強投入AI計算的創新,而最強的AI計算又具備哪些關鍵能力呢?相比於推理,訓練芯片的能力更能體現AI的最強算力。華為昇騰910訓練芯片基於達芬奇架構,內置了32個3D Cube計算引擎,單引擎能夠在一個時鐘週期內完成4096次乘加運算,算力達到256T FLOPS。基於毫秒級梯度同步及On-Device處理,實現多芯片並行訓練。AI服務器搭載8顆昇騰910芯片,算力可達到2P FLOPS。通過Scale-Out擴展可組成大規模的AI集羣,結合芯片-服務器-集羣通信無阻塞網絡技術,集羣算力高達1024P FLOPS,將模型訓練時間,從數月數週數天,縮短至秒級。
華為發佈最強算力的AI訓練卡Atlas 300與訓練服務器Atlas 800

在今年8月23日,華為發佈了業界最強算力的AI訓練處理器昇騰910。今天我將發佈兩款基於昇騰910的Atlas新產品:算力最強的AI訓練卡Atlas 300 與 訓練服務器Atlas 800。Atlas是古希臘神話中撐起宇宙的擎天大力神,我們用Atlas來命名AI計算產品,是希望Atlas能夠成為撐起智能世界的擎天大力神。
Atlas 300,業界最強算力的AI訓練卡,可提供256T FLOPS的算力,是當前業界主流訓練卡的2倍,每秒訓練的圖片數量從965張提升到1802張。支持100G RoCE直出高速接口,可實現梯度參數和數據集並行傳輸,最高可降低70%的梯度同步時延,支撐集羣訓練時間縮短到秒級。

Atlas 800,是業界算力最強的AI訓練服務器!Atlas 800在僅僅4U空間裏集成了8顆昇騰910 AI處理器,可提供2P FLOPS的超強算力,算力密度是業界同類產品的2.5倍。Atlas 800僅重75千克,不到業界同類產品的一半,內置32個硬件解碼器,每秒可完成16384張1080P圖片解碼,是業界主流產品處理能力的25倍,而且可以與訓練並行處理。支持風冷和液冷兩種散熱方式,滿足企業數據中心和集羣高密部署兩類場景。單機能效是業界同類產品的1.8倍。在華為松山湖的數據中心中,我們已經部署了全液冷的Atlas 800 ,單機櫃的散熱能力高達5萬瓦。

昨天,我們發佈了全球最快的AI訓練集羣Atlas 900。Atlas 900是一個可擴展的AI集羣架構,由數千顆昇騰910處理器組成,在ResNet-50測試中,以59.8秒的成績奪得全球第一,在同等精度下比第2名快15%。Atlas 900集羣的強大算力,可廣泛應用於科學研究與商業創新,比如天文探索、石油勘探等領域。
Atlas全系列產品佈局完成 實現全場景部署

基於昇騰910和昇騰310 AI處理器,我們完成了Atlas全系列產品佈局,面向訓練和推理都提供了超強算力,實現全場景部署。基於統一的達芬奇架構和全場景AI計算框架,實現雲邊端協同,加速全行業的智能化再造。
今年,華為和南方電網深圳供電局啓動了基於Atlas的智能巡檢聯合創新。屏幕正在播放的是深圳供電局在聯合創新前後,高壓電線的人工巡檢與AI巡檢的對比視頻。深圳供電局曾經分享過:一名普通線路工人一生巡檢走過的山路可繞赤道一圈。山路崎嶇,杆塔高聳,工作強度極大,通過基於Atlas的智能無人巡檢方案,使得南方電網可以徹底擺脱“一車兩人三水壺”的傳統巡檢模式,實現即時預警,準確上報,更安全,更高效。
技術致善,接力致遠,我們希望更多的行業能夠通過技術創新,讓生命更安全,讓社會更美好。