“逃離”英偉達_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2020-12-10 14:16
來源:內容來自半導體行業觀察(ID:icbank)原創,作者:邱麗婷,謝謝!
繼11月亞馬遜將 Alexa 語音助手的部分計算任務轉移到自主設計的定製設計芯片Inferentia 後,近日,其再次宣佈推出了全新的AI訓練芯片AWS Trainium,據消息稱,這是該公司用於訓練機器學習模型的下一代定製芯片。
這意味着亞馬遜將減少對英偉達芯片的依賴。
稱霸AI芯片領域
近年來,AI熱度不斷攀升,AI相關應用也在急劇增長,這引發了市場對超大型數據中心的強勁需求。另一方面,AI處理任務的持續增長,又會倒逼服務器的配置要得到持續的升級。為了滿足深度學習訓練任務,硬件的複雜程度不斷提升,處理器性能也被提出了更高的要求。
目前在AI領域主要有GPU、FPGA 和ASIC三種技術路線。其中GPU在AI訓練方面已經發展到較為成熟的階段。而在GPU芯片領域,英偉達是龍頭老大。如今,全球估計有3000家AI創業公司,其中一半以上都是在英偉達的平台上構建的。
回看英偉達的發展史,其成立於1993年,這一年,全球有超過二十家的圖形芯片公司,到1997年,這個數字猛增至70家。
1999年,英偉達發明了GPU,為了讓GPU從軟硬件都走向通用,其又在2006年推出了Tesla架構,一改之前使用矢量計算單元做渲染的做法,而是把一個矢量計算單元拆成了多個標量計算渲染單元。這就使得基於這個架構的GPU除了渲染能力強以外,還適合做通用計算。
也就是在這一年,英偉達推出了CUDA。按照他們的説法,這是一種用於通用GPU計算的革命性架構。CUDA將使科學家和研究人員能夠利用GPU的並行處理能力來應對其最複雜的計算挑戰。
正是得益於這兩個方向的佈局,英偉達在AI時代如魚得水。自2016年起,英偉達數據中心業務開始爆發式增長。同比增長率連續七個季度(2QFY17-4QFY18)超100%。
英偉達數據中心業務單季收入及同比增長率 資料來源:英偉達公司官網
與此同時,英偉達GPU在全球主要雲廠商中也獲得了極大的認可。根據Liftr調查顯示,在阿里雲、AWS、微軟Azure以及Google Clound中,Tesla系列GPU的市場佔有率比AMD、賽靈思以及以英特爾大幅領先。充分説明英偉達Tesla系列GPU在通用計算市場的強大競爭力。
逃離英偉達
當然,英偉達的AI芯片王座也不是那麼好坐的。
誠如前文所言,一些廠商已經開始自研芯片,除了亞馬遜之外,谷歌早在幾年前就推出了自稱性能可達同等級GPU產品15~30倍的AI專有芯片TPU;華為在去年8月推出“算力最強”的AI(人工智能)處理器Ascend 910(昇騰910)等。
不過他們自研的大多是推理芯片,意圖在專用性能上打敗英偉達GPU,以擺脱英偉達在訓練芯片的壟斷。
資料顯示,由於神經網絡模型在訓練階段需要處理大量數據,同時也要完成不同的學習任務,因此目前通用屬性的GPU具備的大量平行運算單元,能夠充分滿足“訓練”對運算的效率與通用性要求。但進入執行階段,也就是“推理階段”,一個算法模型可以根據一堆量級不大的新數據得出結論。
這時候採用GPU就顯得有些“大材小用”。這就是這些廠商為何研發定製推理芯片重要原因之一,對於大量推理工作,通用性或許不足,但專用肯定綽綽有餘。
不僅如此,這些廠商的自研芯片在它所擅長的任務上,可能具備在效能與算力上大幅領先 GPU 的能力。對比發現,谷歌TPU和特斯拉FSD都能輕易做到相較GPU,性能和效率都高出一截的表現,即便這是以犧牲可編程性為代價。
當然,也有一些業界人士對這些自研芯片存有疑慮。因為他們認為,無論是自己做,還是部署其他公司的商用芯片,難度其實不相上下。
但不管怎麼説,這些自研芯片的廠商確實對英偉達造成了一定的威脅,並且聲勢愈發浩大。
挑戰英偉達
與此同時,國外還存在Graphcore、Intel和AMD這些廠商,他們則希望從通用角度去挑戰英偉達。
首先是Graphcore,其創始人兼CEO Nigel Toon曾在一次訪談中指出:“如果只是要做基本的前饋卷積神經網路(feed-forward convolutional neural networks),GPU是很不錯的解決方案,但隨着網路變得越來越複雜,人們需要全新的解決方案──這也是為何他們要用ASIC和FPGA。我們接觸過的所有創新者都説,GPU正在阻礙他們創新。如果仔細看他們正在研究的模型類型,你會發現主要是卷積神經網絡(CNN),而遞歸神經網絡(RNN)和其他類型結構,比如強化學習,並不能很好地映射到GPU。他們需要足夠好的硬件平台,這是我們將IPU推向市場的原因。”
按照Graphcore給出的解釋,其IPU芯片可以進行推論或訓練,從架構的角度來看,這非常重要,因為隨着機器學習演進,系統將能夠從經驗中學習。推論性能表現的關鍵包括低延遲、能使用小模型、小批次(small batches),以及可能會嘗試導入稀疏性(sparsity)的訓練模型;IPU可以有效地完成所有這些事情。
與市面上領先的GPU方案相比,如果是執行用以分類靜態影像的前饋卷積神經網路,GPU的表現已經相當好,但IPU可以提供兩到三倍的性能優勢、有時甚至是五倍。對於更復雜的模型,例如有資料來回傳遞以嘗試理解情境(例如對話)的模型;由於資料被傳遞多次,需要非常快。對於這樣的應用,因為所有的模型都保存在處理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。
所以在Graphcore眼中,IPU是自CPU、GPU之後的第三大類主流處理器。“通用”在這個路徑中是個必選項,而毫無猶豫的必要。
同時,英偉達還面臨着老對手--AMD以及英特爾的挑釁。
早在英偉達進軍GPGPU的前後,AMD也有與之對應的計劃,AMD選擇推行“OpenCL”,這導致即使他們在2017年發佈了ROCm平台來提供深度學習支持,但也改變不了他們GPU在AI時代幾無所獲的結局。
於是,今年三月份,AMD又推出了新的CDNA架構。基於這個架構,AMD在本月中發佈了新一代的Instinct MI100計算卡。數據顯示,新的架構可提供高達11.5 TFLOPS的FP64峯值吞吐量,這使其成為第一個在FP64中突破10 TFLOPS的GPU。與上一代MI50相比,新加速卡的性能提高了3倍。它還在FP32工作負載中擁有23.1 TFLOPS的峯值吞吐量。數據顯示,AMD的新加速卡在這兩個類別中都擊敗了Nvidia的A100 GPU。
為了更好地與英偉達競爭,AMD還表示,其開源ROCm 4.0開發人員軟件現在具有開源編譯器,並統一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。
AMD在GPU領域花的心思並不少,今年10月份,AMD還宣佈將以350億美元價位收購賽靈思,合併後的公司將擁有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。當然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU開發環境,再加上賽靈思Vitis,足以對抗英偉達頗受歡迎的CUDA開發平台,以及英特爾力推的oneAPI。
英特爾同樣是AI芯片領域的活躍者,據介紹,英特爾的Xe架構GPU將覆蓋從集成顯卡到高性能計算的所有範圍。其中代號為Ponte Vecchio的獨立GPU則是公司面對HPC建模和仿真以及AI訓練而推出的設計。Ponte Vecchio將採用英特爾的7納米技術製造,並將成為英特爾首款針對HPC和AI工作負載進行了優化的基於Xe的GPU。但直到目前為止,尚未看到Intel的這款新品。
近日,IFTD2020上,Intel還發布了首款用於5G、人工智能、雲端與邊緣的eASIC N5X(結構化ASIC),同時發佈了最新的Intel開放式FPGA堆棧(Intel OFS),這款產品繼承了Agilex FPGA的硬核處理器系統、安全特性,支持Agilex FPGA用於管理啓動、身份驗證和防篡改特性的安全設備管理器,採用了Diamond Mesa SoC技術。
此外,為了更好地在包括AI在內的應用市場中發揮其包括CPU、GPU、FPGA和AISC在內的芯片的為例,方便開發者編程,Intel還推出了擁有遠達理想的OneAPI。整個行業內,英特爾是目前在異構計算上擁有最全產品線的, 在硬件上擁有CPU、獨立GPU、FPGA、eASIC、ASIC、VPU、內存和存儲等,在軟件上擁有統一開發平台oneAPI。
因此,在未來的AI芯片市場上,我們很難去辨別到底誰會笑到最後,但很明顯的是,這些廠商將在各自的領域發力,逼迫英偉達吐出吞下的巨大市場。
總結
總的來説,無論是專用還是通用方面,英偉達都面臨着來自各個廠商的壓力。尤其是對於雲廠商而言,在巨大利潤漩渦下,誰也不能逃脱,自研芯片成為了必然選擇。
當然,就目前的AI芯片市場而言,英偉達仍然可以在一段時間內把控大部分份額,畢竟包括英特爾在內,大多數聲勢響亮的AI芯片公司才剛剛出貨,或正在努力出貨的路上(有些還沒等到出貨就夭折了),這給了英偉達升級產品充裕的時間。
更重要的是,對於GPU而言,軟件和開發者生態才是硬道理。只有做好了這個,才是GPU能夠商用的前提。
逃離英偉達成為常態,超越英偉達卻並不容易。