GPU驅動“後摩爾定律時代” 為HPC和深度學習提供加速動力
11月10日,中國HPC領域盛會2015年全國高性能計算學術年會(HPC China 2015)在無錫開幕。全球視覺計算的行業領袖NVIDIA®(英偉達™)及應用其GPU的眾多企業和科研機構,帶來近20場報告和演講,針對GPU的最新技術以及GPU在科學計算、大數據分析、深度學習乃至自動駕駛汽車領域的應用和創新,做了深度解讀和分享。隨着深度學習爆發式發展,GPU成為HPC 領域受關注的焦點。
在大會首日上午的特邀報告中,NVIDIA解決方案工程架構副總裁Marc Hamilton提到:“在NVIDIA的推動下,過去7年間整個加速計算領域獲得了10倍的增長,NVIDIA的GPU加速器佔據了加速器市場85%的份額。同時在GPU的驅動下全球和中國都掀起了深度學習熱潮,GPU也已成為深度學習研究的首選技術平台。此次大會我們非常高興地看到GPU幫助了眾多企業和研究機構在HPC和深度學習領域實現大量創新應用,相信我們將於明年面世的下一代GPU架構Pascal和NVLink高速互聯技術,將為數據中心和深度學習提供更加強大的加速動力。”
“後摩爾定律”時代 GPU提供強大加速動力
計算核心並沒有越來越快,只不過處理器正朝着並行化的方向發展。如今我們已步入了“後摩爾定律時代”,處理器單線程性能的增速放緩,邏輯核心數量則在不斷增加,由CPU和加速器構成的加速計算體系,成為整個計算領域的必然趨勢。
目前,加速器發展勢頭迅猛,自2010年到今天的短短幾年時間,全球超級計算機TOP 500榜單中採用加速器的系統就已經達到90台。同時,最常用的50款HPC應用中有70%已支持加速器加速。
NVIDIA在整個加速計算領域中居於主導地位,其推出的Tesla GPU加速器和CUDA®並行計算架構,在過去7年中引領了加速計算領域10倍以上的增長,例如支持CUDA的應用數量從27款增長至334款,Tesla GPU加速器的使用量從6,000個增加至45萬個,佔據整個加速器市場85%的份額。
2008年全球首台GPU超級計算機即由Tesla GPU加速器驅動,隨後幾年內Tesla GPU加速器更成就多台頂級超級計算機,例如美國的泰坦系統。而當前美國基於Tesla GPU加速器正構建兩台新一代超級計算機高峯和峯巒,將距離百億億次級計算目標更近一步。
NVIDIA的Tesla GPU加速器還在2013年幫助科學家實現重大突破,首次確定了HIV"病毒衣殼"的準確化學結構。而如果不使用GPU,則需要5倍的處理器規模才能達到近似的性能;Tesla GPU加速器還可顯著提升成本效益,例如谷歌大腦系統在使用Tesla加速器後,性能提升到之前的6倍,而能耗卻從原先的600千瓦降低到4千瓦。
高密度GPU服務器也已成為主流,Cray、DELL、HP以及Quanta都已推出支持TeslaGPU加速器的產品,可為HPC客户提供直接、完整的解決方案。
圍繞Tesla GPU加速器和CUDA並行計算架構,NVIDIA推出了Tesla加速計算平台,專門針對大數據分析與科學計算領域的密集型計算需求,構建了一個由軟件開發者、軟件供應商以及數據中心繫統OEM廠商組成的綜合生態系統。Tesla平台可為高性能計算專業人士提供所需的工具,使其能夠在數據中心輕鬆地打造、測試和部署加速的應用。
當前Tesla加速計算平台的最新旗艦是Tesla K80雙GPU加速器,它可提供最快的數據分析和科學計算性能,被眾多對計算有較高要求的企業和研究機構列為首選升級方案。Tesla K80擁有帶寬極高的24GB內存、高達8.74TFlops的單精度峯值浮點性能和高達2.91 TFlops的雙精度峯值浮點性能。在數百款HPC應用中,Tesla K80比當今最快CPU快10倍。
得益於優秀的性能表現,Tesla K80已開始在全球得到廣泛應用。瑞士聯邦氣象氣候局利用基於Tesla K80的超級計算機,將氣象模型解析度和能源使用效率分別提升到之前的兩倍和三倍。同時,Tesla K80也在各項超算大賽中發揮重要優勢,幫助清華大學先後在今年ASC和ISC兩次超算大賽中獲得總冠軍。也因此讓Tesla GPU加速器公認成為在超算大賽中獲得優勝的首選加速方案。
作為能夠讓開發人員輕鬆為應用實現GPU加速的並行編程標準,NVIDIA一直推動其在HPC領域中的普及,並促進其在更多的加速器平台和CPU架構上的應用。目前全球已經有超過8,000名研究人員在採用OpenACC。NVIDIA在今年推出的OpenACC工具包可以幫助開發人員快速利用OpenACC實現應用加速;在上月末推出的新增對x86多核CPU的OpenACC支持的新版PGI加速器編譯器,讓開發者能夠對基於OpenACC的源代碼進行編譯,使其可以在多核CPU或GPU加速器上並行執行,為開發者帶來巨大的靈活性。
硬件架構的升級也將進一步推動HPC行業的發展,將隨NVIDIA下一代GPU架構Pascal一同到來的NVLink高速互聯技術可以為超級計算機內CPU和GPU之間、以及GPU和GPU之間的數據傳輸帶來現有PCI-Express總線5倍的帶寬,最終的應用性能也將獲得兩倍以上性能提升,為數據中心和深度學習提供強大的加速動力。
可以説,GPU加速器徹底改變了高性能計算行業。
GPU掀起深度學習革命 助力全球多領域創新
深度學習如今成為HPC行業中一個爆發式增長的應用方向,大數據、算法的進步、強大的GPU加速,共同驅動了深度學習研究和應用熱潮。諸如Adobe、百度、谷歌、Facebook、IBM等企業已成為深度學習領域的探索者和領導者,並在包括圖像識別、人臉識別、語音識別、視頻分析、語音識別和翻譯、自然語言處理等方面促成了大量革命性的進展和創新,這些創新已被廣泛應用於社交網絡、安防和能源領域。
在醫學研究領域,深度學習助力創造多項革命,例如乳腺癌細胞有絲分裂檢測、藥物發現領域的分子活動預測、預測新型藥物的毒性,以及幫助科學家瞭解基於突變防止疾病。
在圖像識別領域,以ImageNet大規模視覺識別挑戰賽為例,GPU在2012年被首次應用即取得了突破性成績,它幫助多倫多大學大幅提升了識別精度,將錯誤率從之前兩年的28%和26%直接降低到了16%,也由此掀起了GPU加速深度學習的熱潮。
作為深度學習研究技術平台領導廠商,NVIDIA先後推出了多項創新產品和技術,助力國內外各大企業實現創新應用,NVIDIA GPU也成為深度學習研究首選平台。
在硬件方面,得益於統一的GPU架構,從嵌入式到桌面再到HPC和雲服務,NVIDIA可為不同的硬件平台均提供深度學習研究的支持。其中,Tesla K80即有針對深度學習任務的優化,在深度學習框架Caffe中,Tesla K80的速度更可以比CPU快上近24倍。
在軟件方面,NVIDIA推出了DIGITS深度學習訓練系統,它是首個專門用於圖像分類的全功能圖像系統,可用於設計、訓練和驗證深度神經網絡,目前已推出最新的DIGITS 2可以充分利用多GPU擴展實現性能翻倍。NVIDIA還推出了cuDNN(CUDA深度神經網絡庫),讓開發者可以將其集成到更高級的機器學習框架如Caffe、Torch、Theano中,這些框架均可充分利用GPU加速,幫助研究人員高效地訓練更大、更復雜的神經網絡。
NVIDIA還聯合曙光、浪潮等HPC領域的眾多合作伙伴,推動中國深度學習生態鏈的構建,助力中國企業在深度學習領域的創新。例如此次NVIDIA 展台展示的曙光XSystem深度學習產品,可為用户提供完整的軟硬件一體化深度學習解決方案;NVIDIA與曙光、中科院計算技術研究所共建的深度學習與高性能計算聯合實驗室,將聯合開展深度學習軟硬件產品的開發和推廣工作。
目前,基於NVIDIA GPU的深度學習平台已幫助谷歌、Facebook、阿里巴巴、百度、騰訊、京東、網易、科大訊飛、搜狗、愛奇藝等國內外知名企業實現創新研究和應用。例如,谷歌研究院利用GPU,在自動駕駛、智能交通領域關鍵技術行人檢測方面實現了的性能與精度的雙重飛躍;阿里雲推出的中國第一個基於GPU計算的HPC雲服務為諸多從事深度學習創新企業提供加速支持;百度研發的計算機視覺系統Deep Image和深度語音識別系統Deep Speech均在GPU的加持下實現了識別速度和精度的顯著提高。
深度學習還促成了新一輪創業熱潮,包括格林深瞳、曠視科技、圖普科技、Linkface、輕搜、元趣、小猿搜題等新興企業依託於NVIDIA GPU已開發出了大量的創新產品。