NVIDIA在VLSI2019提出巨大規模推理計算試作芯片,欲甩開業界挑戰_風聞
TechEdge科技边界-2019-07-02 22:53
過去數年,我們看到各家IP/芯片設計業者推出各種號稱可以幹掉NVIDIA的神經網絡芯片,但實際上,NVIDIA仍以超過九成的市佔稱霸機器學習產業,所有號稱在AI計算方面擁有更強大性能或能耗表現的芯片方案,都毫不意外的對NVIDIA起不了任何威脅。
雖然NVIDIA維繫霸主地位的關鍵在於生態的優勢,以及NVIDIA在CUDA軟件方案的強大統治力,但這些競爭者不論在性能或者是軟件支持方面都有逐漸追上NVIDIA的態勢。
要説NVIDIA不會緊張是假的,畢竟機器學習相關的服務器營收已經佔了NVIDIA總營收的將近三成,不僅是NVIDIA第二大營收來源,也是第一大淨利來源,如果有任何新方案威脅到NVIDIA的地位,NVIDIA絕對不會坐視不理。
而在今年的VLSI大會上,NVIDIA就展出了一款試作的芯片,該芯片是一個封裝了36個Die的芯片。該芯片最早在NVIDIA自家的GTC大會上被揭露,該芯片的代號為2018研究芯片,或簡稱為RC18。
當初不少人認為該芯片可能代表着未來NVIDIA會對其一貫的大核心策略進行調整,推出使用MCM多模封裝的Chiplet設計,這種設計被普遍使用在英特爾與AMD的多核CPU上,業界也戲稱該並聯封裝方式是膠水多核。雖然因為互聯總線帶來的延遲,絕對性能方面比不過單一芯片的多核設計,不過這種膠水多核可以大幅改善良率,並減少成本,同時也能大幅強化芯片生產的彈性。
不過NVIDIA在VLSI上正式揭露RC18的真面目,強調該芯片是用來進行深度學習的實驗架構,主要是針對幾大技術進行探討。
對象導向(Object-oriented)的邏輯合成
細粒度全局異步本地同步(GALS)SoC設計
芯片到芯片(die-to-die)接地參考的單端串行鏈路(GRS)
可擴展的神經處理器加速器架構
該芯片”組” 可從單芯片到36芯片系統等不同組合,而所有芯片都是相同的設計,每個芯片都包含了8700萬個晶體管,相較於NVIDIA現有的所有芯片產品,可稱得上迷你了。該芯片利用台積電16nm節點製造,每個芯片佔據正好6平方毫米的硅。每個芯片上有一個由16個處理單元(processing elements)組成的網絡,一個存儲中間激活的全局緩衝區、NoC、NoP和一個用來進行管理的RISC-V內核。
值得注意的是,RC18採用的RISC-V內核性能約等同於Arm的Cortex-A5,但是芯片佔用面積更小,能效也更高。
NVIDIA在RC18的單個載板上封裝了多達36個連接在一起的小芯片。前6個芯片具有連接到外部的通用I/O,封裝本身為47.5毫米×47.5毫米,相對於該芯片所封裝的獨立核心數量而言,其實已經相當小了。值得注意的是,NVIDIA因為成本因素選擇了標準的有機載板(organic substrate),而不是CoWoS等具有更好的I/O數量與凸點間距的封裝技術。
PE(Process element)是RC18芯片中的基礎執行單元,每個核心包含了16個PE。 除了操作的開始和結束之外,PE能在沒有任何全局同步邏輯的情況下自主地操作。每個PE擁有八個通道,每個通道對應一個輸出通道。在每個通道中讀取不同的權重,在讀取一次之後在所有通道上共享輸入。
每個通道是一個8位寬的矢量MAC元件,同時在8個輸入通道上運行。通過8個通道,芯片可以達到每個週期64個MAC的峯值計算。PE權重緩衝器讀取每個PxQ(卷積結果的寬度和高度)循環,同時每個循環從輸入緩衝器讀取。
根據NVIDIA展示的性能數據,對於36個芯片的最大配置下,可以在1.8 GHz下運行效率達128 TOPS,此時功耗約為110 W。
這個數據乍看之下只和寒武紀的MLU270半斤八兩,那麼RC18也沒什麼了不起的?但不要忘了,RC18只是個概念試作芯片,不是最終版本的量產芯片,也沒有經過充分優化。
去年Bill Dally在VLSI大會上就曾表示,NVIDIA已經在ground-referenced signaling link投入研發達5年之久,通過這個技術,可以讓龐大的實體核心節點數量以更有效率的方式進行互聯,因為先進製程的成本越來越高,製造大型單一芯片的成本更是居高不下,通過這個技術,可以有效的縮減在芯片製造的成本負擔,從而投入更多的資源在計算效率的提升。
或許在不久之後,我們就可以在NVIDIA的服務器、娛樂計算方案上看到這個技術的實現,並用以對抗來自AMD與英特爾,以及一眾AI芯片業者的挑戰。