沙超羣:曙光寒武紀聯手 全球首款神經元計算服務器有何特色-沙超羣、科工力量
10月24日,2017中科曙光智能峯會在青島盛大開幕。包括中國工程院原常務副院長、院士潘雲鶴,中國工程院院士、曙光公司董事長李國傑、中國工程院院士潘德爐在內的一大批專家和企業界代表參加大會。在大會上,曙光發佈了全球首款在推理應用上採用神經元計算的服務器產品;以及能夠快速釋放計算能力的人工智能管理平台SothisAI。那麼,這款搭載了20片寒武紀芯片的服務器有何獨到之處呢?人工智能管理平台SothisAI又用怎樣的用武之地?我們邀請了曙光公司副總裁沙超羣為大家答疑解惑。

潘雲鶴院士
**科工力量:**作為服務器廠商,曙光為何這麼重視人工智能?
**沙超羣:**瞭解曙光的朋友們都知道,曙光這家公司從李院士和歷軍總裁創立之初,我們專注於計算,在過去的高性能計算、雲計算、大數據處理等通用計算,我們都是專注在計算領域,別得也幹不了,計算我們幹得還不錯。今年國務院也印發了我國人工智能的發展規劃,人工智能技術是信息產業發展的新方向,也是我們曙光所從事的高性能計算機發展的未來新的應用領域。曙光在未來大型計算機的研發和應用過程中,人工智能也一定是最重要的發展方向。
**科工力量:**曙光已經有哪些應用和產品?
**沙超羣:**曙光在過去幾年當中,高度重視人工智能技術和產品發展。我們已經在一些超級計算機的應用方面,大量採用了人工智能的技術。比如新疆的雲計算中心通過超級計算機進行實時視頻圖像的分析和處理,以便為平安城市等帶來社會效益。同時,曙光的百城百行雲計算發展計劃當中,城市數據已經經過了近十年的積累,形成了比較大規模的數據量。在曙光的發佈會上,我們公佈了三款產品,分別是“PHANERON”推理專用服務器、曙光的X860-LE全浸沒式液冷的AI訓練專用服務器和曙光人工智能管理平台SothisAI。
在2016年數據中國加速計劃的會議上,曙光和寒武紀簽約了戰略合作,經過一年的時間,兩個研發團隊研發出了一款“PHANERON”推理專用服務器,這是世界首款在推理應用上採用神經元計算的服務器產品,這個名字的意思大概是這樣的,是取自“顯生宙”的詞頭,象徵着採用神經元進行在線推理計算。
**科工力量:**這款“PHANERON”推理專用服務器有什麼特別之處麼?
**沙超羣:**這樣一款產品在4U空間中部署20個人工智能前端推理模塊,能夠為推理提供強大的計算支持,單位節點峯值推理計算能力達到120TFlops,還通過提高密度來降低總體服務器的部署數量,可顯著降低項目總體投資。今天推理用的在線服務器產品,由於它的應用模式,大概一台機器可以頂上20台通用的服務器產品,也就是1:20,大家可以想象在成本空間的節約上,優勢非常大。
其實更讓我個人興奮的不是這款產品,而是計劃明年年底推出PHANERON2這個產品,性能提升5-6倍,那時候一台這樣的服務器可以頂上100台通用的服務器產品。

李國傑院士
**科工力量:**能介紹下曙光的X860-LE全浸沒式液冷的AI訓練專用服務器麼?
**沙超羣:**在機器學習方面,我們由於需要大量圖片深度分析,最早從提供2U,到現在是8U,一個2U的設備空間基本沒有辦法解決散熱。數據中心42U可以放20台這樣的設備,功耗是60千瓦,大概在一個櫃子裏面,500瓦的電爐子,可以放120個電爐子。風冷解決方案對該量級的散熱問題已經束手無策。
曙光的X860-LE全浸沒式液冷的AI訓練專用服務器就是專門解決能耗和噪音的問題,我們把它浸沒在液體當中,通過蒸發把熱量帶走。這個產品有兩個特點:第一個是業界最高密度的GPU的訓練平台。它是世界上PUE(注:Power Usage Effectiveness的簡寫,是評價數據中心能源效率的指標)最低的訓練的服務器產品,它的PUE能到1.02。剛剛談到了噪音的問題,這個系統第二個特點就是零噪音。
回到PUE的問題,今天我們的數據中心大概PUE會在1.6-2.0,我們這個產品的PUE是1.02。大概算一下,一個300瓦的GPU,在製冷方面的能耗節約大概180瓦,如果現在PUE是1.6的話,一個GPU每年省電是1200元。今天很多客户這種GPU的採購已經是2萬片-3萬片,僅僅在這一塊的節能就是巨大的,同時也節約了大概兩三千萬的運營費用。
**科工力量:**曙光開發人工智能管理平台SothisAI的目的是什麼?
**沙超羣:**曙光開發人工智能管理平台SothisAI,做這個平台有兩個目標:第一個目標是讓AI儘量簡單化。今天做AI計算的時候,需要做大量硬件異構的配置,需要研究不同的框架,不同的框架裏要部署不同的軟件,還要進入大量的數據進行訓練,這個過程當中非常複雜,非常難用。我們的想法是讓它簡單化,容易化,調動自動化,只需要簡單配比就可以初步使用AI平台來計算。我們希望用户用完以後説“這就是AI,不是那麼難”,這就是我們的名字為什麼起SothisAI的原因。第二個目標就是支持更多的生態發揮好更好的性能。
**科工力量:**人工智能管理平台SothisAI有何獨到之處?
**沙超羣:**曙光構建的人工智能平台,包括硬件,軟件和服務等方面。
硬件計算平台能支持CPU,GPU,FPGA,ASIC等不同類型的芯片,面向訓練和推理不同的應用場景做了全面覆蓋和優化,在硬件的平台的製冷散熱方面,已經能夠支持浸沒液冷等先進技術,走在了業界前列。
在軟件方面,曙光投入了很大精力,面向不同芯片優化函數庫等基礎軟件環境,相比通用軟件環境有顯著的性能提升。庫的優化會大大提升我們的計算力。針對吸收矩陣、重力矩陣,針對DNN、CNN等做了很多優化,大部分的性能測試中採用我們的庫,性能可以提升20%-30%。
曙光也提供人工智能管理平台軟件,能整合曙光優化的性能函數庫,支持Caffe,TensorFlow等主流的深度學習框架,以雲的方式提供使用接口,可以簡化人工智能環境的部署和運維,簡化業務的使用流程,也利用在高性能計算領域積累的經驗,優化底層硬件資源的調度效率,這個平台軟件也在和傳統高性能計算和大數據技術進行整合,最終能提供一個超融合的先進計算平台,在這方面也是領先業界的。

曙光信息產業股份有限公司副總裁 沙超羣博士
**科工力量:**之前提到曙光的SothisAI平台支持各種FPGA、ASIC、GPU。那麼,您認為英偉達的GPU、阿爾特拉的FPGA、中科院寒武紀這些芯片,用於人工智能的話,有什麼差異?
**沙超羣:**這些同類產品基本上在在線推理環境中存在競爭。
NVIDIA的GPU是傳統的推理加速產品,依賴於GPU在訓練市場的主導地位,訓練使用的小功耗GPU產品,算法移植最簡單,通用性最好,用户的接受度最好。
FPGA產品相比GPU,具有功耗低、可編程性好等優點,作為集成電路領域中一種半定製電路,既解決了全定製電路的不足,又克服了原有可編程邏輯器件門電路數有限的缺點,可以針對推理應用進行高效的適配,FPGA以並行運算為主,以硬件描述語言來實現,達到最優的執行效果。中科院寒武紀推出的推理芯片,基於硬件和指令集兩個方面來適配深度學習,具有良好的技術平台,可以利用指令集積極適配推理算法,並且在硬件層面上發揮神經網絡的最高效率。
**科工力量:**曙光的智慧城市雲在引入人工智能之後,和以往相比會有怎樣的改變?
**沙超羣:**曙光已經運營的四十多個城市的運算中心,以前好多各種雲計算服務,底層是曙光的雲計算操作系統。而在今天的AI城市,會插入一個人工智能調動平台,會分裝很多架構,會提供很多標識好的數據。比如有人臉識別的應用或者語義切割的應用,可以到我們這個平台上進行資源申請,進行你自己算法的優化。同時你覺得這些開源的數據還不夠,你有自己專用的數據,可以把數據拿過來,採用你的數據對你的算法進行優化,我們提供這種服務。
**科工力量:**在超算上我們將眾核CPU、GPU作為加速器,那是否可以將寒武紀作為加速器,搭建專門跑人工智能的高性能計算機?
**沙超羣:**業內有類似的計劃。曙光預計未來幾年研製出世界上最大的地球數值模擬裝置,這個裝置建設之後,國家也會要求這個裝置公開運營做公開服務,我們也想今天有大量的科學家採用深度學習的算法,採用我們的計算資源訓練自己的很多模型和算法去優化,未來當地球數值模擬裝置開放公開服務的時候,希望有更多算法進來,通過人工智能和深度學習,預測和發現極端氣候和極端天氣,更好地防災減災,也能夠解密更多的地球密碼,人類的起源,讓我們探索更多的未知。

掃碼關注微信公眾號“科工力量”,中國工業科技新聞的權威觀察家