浪潮科大訊飛Altera實現FPGA加速方案
11月17日,在正在舉行的2015全球超級計算大會(SC15)上,浪潮聯合全球可編程邏輯芯片巨頭Altera,以及中國最大的智能語音技術提供商科大訊飛,共同發佈了一套面向深度學習、基於AlteraArria 10 FPGA平台、採用OpenCL開發語言進行並行化設計和優化的深度學習DNN的語音識別方案。同時,此次發佈也標誌着浪潮成為全球領先的具備GPU、MIC和FPGA三項HPC異構計算應用能力的HPC系統廠商。
讓計算機擁有接近人類的智能水平是IT行業最偉大,也是最難實現的夢想,而深度學習則是通往人工智能的漫漫長路上一項重要的技術。深度學習的出發點是通過構建深層神經網絡,模擬人腦神經元和神經突觸的信息和數據傳輸及計算,在抽象出來的規則限定下,逐漸讓機器像人一樣理解真實的世界。

不過,由於人腦每天能接觸數以萬計的信息並且在短短幾秒內給出判斷和反映,所以要實現讓機器能真正像人類一樣思考不僅依靠算法模型的精確,同時也需要媲美人腦計算效率的高性能計算技術。
可以説,深度學習對計算力資源的需求如同“黑洞”一般永無止境,這使得近幾年異構加速技術在該領域得到越加廣泛的應用,協處理器運算速度的快速提升讓深度學習技術得到了硬件層面的有力支持。
FPGA*,通用和專用之間的半定製化芯片*
FPGA(Field-ProgrammableGate Array,現場可編程門陣列)介於專用芯片和通用芯片之間,具有一定的可編程性,可同時進行數據並行和任務並行計算,在處理特定應用時有更加明顯的效率。更重要的是,FPGA具有明顯的性能功耗比優勢,其能耗比是CPU的10倍以上、GPU的3倍。此外,可定製化也是FPGA的一大重要特性。

正是因為具備極強的性能功耗比優勢和定製化特點,FPGA在諸多領域得到應用,如邏輯控制,信號處理,圖像處理等方面,最近更是在深度學習中的在線識別系統中開始嘗試使用。
不過,傳統FPGA開發採用Verilog、VHDL等硬件描述語言,對開發者要求較高,開發週期也較長,因此在高性能計算應用受到限制。而採用OpenCL,利用軟件高級語言和模型編程,開發週期可大幅縮短,對於一些應用可以實現幾個人月完成,為FPGA的應用發展提供了更為廣闊的平台。
科大訊飛擁有中國最大的語音識別系統,在常用場景下準確率已達到98%,在業內領先。。為了進一步提升DNN算法的效率和性能,科大訊飛計劃在語音識別業務中啓用FPGA平台,而若性能符合要求,則將在未來建造一個上萬規模的FPGA語音識別系統。科大訊飛技術總監于振華表示,深度學習模型的軟件算法需要不斷地微調和優化,隨着時間的推移,固定功能的服務器加速器效率會變得越來越低,浪費空間和電力。相比之下,FPGA可以更加靈活的定製化,並且功耗更低。這也是科大訊飛決定將DNN算法移植到FPGA平台的重要原因。

於是一項由浪潮、科大訊飛和Altera公司共同發起的合作誕生了——由Altera公司提供Altera Arria 10 FPGA平台,科大訊飛提供DNN識別算法,浪潮則負責完成基於FPGA 平台,採用OpenCL進行DNN的並行設計、遷移與優化。經過努力,三方最終完成了基於OpenCL的FPGA線上深度學習語音識別加速方案。該方案硬件平台採用CPU+AlteraArria 10 FPGA異構架構,軟件完全採用高級編程模式OpenCL實現從CPU到FPGA的遷移,具備四大特點:
高性能:處理100 bound數據,基於IntelXeon E5-2650 V2 雙路CPU(啓動16個線程),DNN運行時間為242.027s,而基於Altera ARRIA 10 FPGA,DNN運行時間為84.312s,性能加速2.871倍;
低功耗:Altera Arria 10FPGA功耗為30W,Intel Xeon E5-2650 V2 雙路CPU功耗為190W,FPGA功耗只有CPU的15.7%,在DNN 實際運行測試中,FPGA可實現30GFlops/W的高性能功耗比,能大大節省應用功耗成本;
易編程:採用OpenCL編程模型,基於FPGA的DNN並行程序開發完全由軟件工程師完成,僅僅耗費4個人月。若採用傳統的Verilog、VHDL等底層語言,同樣的開發工作至少需要12個人月,並且需要軟件工程師和硬件工程師配合完成。
高適用性:FPGA即可以採用DNRange模式實現數據並行,也可以採用Pipeline模式實現任務並行,從而滿足了更多的應用場景,可以為更多的應用軟件帶來性能提升。
Altera公司服務器和存儲事業部總經理DavidGamba表示,此次三方成功完成基於Altera ARRIA 10 FPGA平台的OpenCL 並行化設計與開發,創造出極高的功耗性能比,進一步驗證了Altera FPGA平台的優勢。本次方案的開發成功將成為FPGA在深度學習領域應用的重要參考。

通過此次合作,三方實現了基於FPGA的HPC新異構加速模式和技術的可行性研究,在實際深度學習DNN應用的驗證中,此方案在提升性能、節省功耗的同時,實現了OpenCL易編程性的印證。
談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直致力於為用户提供最適合其需求的計算系統解決方案。FPGA具有極高的性能功耗比優勢,浪潮將進一步和科大訊飛、Altera公司開展基於FPGA的線上語音深度學習應用合作,同時浪潮還將研發基於FPGA的通用系統方案,包括整機櫃計算、網絡、存儲FPGA方案,並將方案推廣到其它應用領域和客户。
談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直致力於為用户提供最適合其需求的計算系統解決方案。FPGA具有極高的性能功耗比優勢,浪潮將進一步和科大訊飛、Altera公司開展基於FPGA的線上語音深度學習應用合作,bing研發基於FPGA的通用系統方案,包括整機櫃計算、網絡、存儲FPGA方案,並將方案推廣到其它應用領域和客户。未來,CPU+FPGA或許將作為HPC新的異構模式,被越來越多的HPC大應用、數據中心、互聯網深度學習等越來越多的應用領域採用。
浪潮、科大訊飛、Altera簡介
浪潮依託高效能服務器和存儲技術國家重點實驗室、國家信息存儲技術工程中心、Inspur-Intel中國並行計算聯合實驗室、Inspur-NIVDIA雲超算創新中心等全球領先的研發創新體系,浪潮擁有從萬億次到千萬億次的超級計算機產品研發、系統建設、運維服務能力,擁有完備的HPC軟硬件產品線,為中國高校科研、石油勘探、氣象預報、生命基因、航天航空、製造設計、動漫渲染、環保監測等眾多行業用户提供了領先優質的超算系統與應用服務,並實現國產高性能計算機系統的海外出口產業化。
科大訊飛作為中國最大的智能語音技術提供商,在智能語音技術領域有着長期的研究積累,並在語音合成、語音識別、口語評測、自然語言處理等多項技術上擁有國際領先的成果。科大訊飛的語音識別技術在常用場景下準確率已達到98%,業內領先。
Altera公司站在技術創新的最前沿,30 多年來一直為業界提供最新的可編程邏輯、工藝技術、IP 內核以及開發工具。公司的 FPGA、SoC和嵌入式處理器系統、CPLD、ASIC,以及互補技術,例如,電源解決方案等,受到了全世界各類最終市場上 12,000 多名客户的歡迎。
談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直致力於為用户提供最適合其需求的計算系統解決方案。FPGA具有極高的性能功耗比優勢,浪潮將進一步和科大訊飛、Altera公司開展基於FPGA的線上語音深度學習應用合作,並研發基於FPGA的通用系統方案,包括整機櫃計算、網絡、存儲FPGA方案,並將方案推廣到其它應用領域和客户。