Jim Keller究竟在做什麼芯片?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。03-31 13:56
由行業偶像Jim Keller掌舵的初創公司Tenstorrent組建了一支一流的AI和CPU工程師團隊,制定了涉及通用處理器和人工智能加速器的宏偉計劃。
目前,該公司正在研發業界首款能夠同時處理客户端和HPC工作負載的8寬解碼RISC-V內核,該內核將首先用於面向數據中心的128核高性能CPU。該公司還有多代處理器的路線圖,我們將在下面介紹。
為什麼是 RISC-V?
我們最近與Tenstorrent的首席CPU架構師Wei-Han Lien就公司的願景和路線圖進行了交談。Lien 擁有令人印象深刻的背景,曾在 NexGen、AMD、PA-Semi、Apple 工作過,最著名的可能是他在Apple的A6、A7(世界上第一款64位Arm SoC)和M1 CPU微架構和實施方面的工作。
公司有許多在 x86 和 Arm 設計方面擁有豐富經驗的世界級工程師,有人可能會問為什麼 Tenstorrent 決定開發 RISC-V CPU,因為這種指令集架構 (ISA) 的數據中心軟件堆棧不如 x86和Arm 的全面。Tenstorrent 給我們的答案很簡單:x86 由 AMD 和 Intel 控制,而 Arm 由 Arm Holding 控制,這限制了創新的步伐。
“世界上主要只有兩家公司可以生產 x86 CPU,”Wei-Han Lien 説。“由於 x86 許可限制,創新基本上由一兩家公司控制。當公司變得非常大時,它們就會變得官僚化,創新的步伐 [ 放緩 ]。[…] Arm 有點類似。他們聲稱他們就像一家 RISC-V 公司,但如果你看一下他們的規範,[它] 變得如此複雜。它實際上也有點由一位架構師主導。[…] Arm 有點規定所有可能的場景,甚至是架構[許可]合作伙伴。”
相比之下,RISC-V發展迅速。據Tenstorrent稱,由於它是一個開源ISA,因此使用它進行創新更容易、更快速,尤其是在涉及新興和快速開發的 AI 解決方案時。
“我一直在為 [Tenstorrent 的] AI 解決方案尋找配套的處理器解決方案,然後我們想要 BF16 數據類型,然後我們去找Arm説,‘嘿,你能支持我們嗎?’ 他們説‘不’,這可能需要兩年的內部討論以及與合作伙伴的討論等等,”Lien 解釋道。“但我們和 SiFive 談過;他們只是把它放在那裏。所以,沒有限制,他們為我們建造了它,這是自由的。”
一方面,Arm Holding 的方法確保了高質量的標準和全面的軟件堆棧,但這也意味着 ISA 創新的步伐變慢,這對於AI處理器等新興應用來説可能是一個問題,這些應用旨在得到快速發展。
一個微架構,一年五個 CPU IP
由於Tenstorrent着眼於並解決整個AI應用,它不僅需要不同的片上系統或系統級封裝,還需要各種CPU微架構實現和系統級架構來實現不同的功率和性能目標。這正是Wei-Han Lien 的部門所致力於解決的問題。
不起眼的消費電子SoC和強大的服務器處理器幾乎沒有共同之處,但可以共享相同的ISA和微體系結構(管實現方式不同)。這就是Lien的團隊發揮作用的地方。Tenstorrent 表示,公司CPU團隊開發了一種無序 RISC-V 微架構,並以五種不同的方式實現它,以解決各種應用程序的問題。
Tenstorrent現在有五種不同的RISC-V CPU核心IP——具有兩寬、三寬、四寬、六寬和八寬解碼——用於其自己的處理器或許可給感興趣的各方。對於那些需要非常基本的CPU的潛在客户,該公司可以提供具有兩個寬度執行的小內核,但對於那些需要更高性能的邊緣、客户端PC和高性能計算的客户,它有六個寬度的Alastor和八個寬Ascalo 內核。
每個帶八位解碼的亂序Ascalon ( RV64ACDHFMV) 內核都有六個ALU、兩個FPU和兩個256位向量單元,使其非常強大。考慮到現代x86設計使用四寬 (Zen 4) 或六寬 (Golden Cove) 解碼器,我們正在尋找一個非常強大的內核。
Wei-Han Lien 是負責蘋果“寬”CPU 微架構的設計師之一,該架構每個時鐘最多可執行8條指令。例如,Apple的A14和M1 SoC具有八個寬的高性能 Firestorm CPU內核,在推出兩年後,它們仍然是業內最節能的設計之一。Lien 可能是業界“寬”CPU微架構方面最好的專家之一,據我們所知,他是唯一一位領導工程師團隊開發八寬RISC-V高性能CPU內核的處理器設計師。
除了各種RISC-V通用內核外,Tenstorrent還擁有為神經網絡推理和訓練量身定製的專有 Tensix 內核。每個 Tensix 內核包含五個RISC內核、一個用於張量運算的數組數學單元、一個用於矢量運算的SIMD單元、1MB或 2MB的 SRAM,以及用於加速網絡數據包運算和壓縮/解壓縮的固定功能硬件。Tensix內核支持多種數據格式,包括BF4、BF8、INT8、FP16、BF16,甚至 FP64。
令人印象深刻的路線圖
目前,Tenstorrent 有兩種產品:一種稱為Grayskull的機器學習處理器,可提供約315 INT8 TOPS的性能,可插入PCIe Gen4插槽,以及網絡Wormhole ML處理器,具有約 350 INT8 TOPS 的性能並使用GDDR6 內存子系統,一個PCIe Gen4 x16接口,並具有與其他機器的400GbE連接。
這兩種設備都需要一個主機CPU,可以作為附加板使用,也可以在預構建的 Tenstorrent 服務器中使用。一台包含32個 Wormhole ML卡的4U Nebula服務器在6kW時提供大約12 INT8 POPS的性能。
今年晚些時候,該公司計劃推出其第一個獨立的CPU+ML解決方案——Black Hole——結合了24個SiFive X280 RISC-V內核和多個第三代Tensix內核,這些內核使用兩個在機器的相反方向運行的2D環面網絡互連學習工作量。該設備將提供1 INT8 POPS的計算吞吐量(與其前身相比性能提升約三倍)、八個GDDR6內存通道、1200 Gb/s以太網連接和PCIe Gen5通道。
此外,該公司期待為雙芯片解決方案以及未來使用添加2TB/s 的die to die接口。該芯片將採用6nm級製造工藝(我們預計它是台積電N6,但 Tenstorrent 尚未證實這一點),但在600mm²時,它將比台積電12nm級節點生產的前代產品更小. 需要記住的一件事是,Tenstorrent 尚未開發出其 Blackhole,其最終功能集可能與公司今天披露的不同。
明年,該公司將發佈其終極產品:名為Grendel的多小芯片解決方案,該解決方案具有自己的Ascalon通用內核,具有自己的RISC-V微架構,具有八位解碼器以及用於ML工作負載的基於 Tensix 的小芯片。
Grendel 是 Tenstorrent 將於明年發佈的終極產品集:多chiplet 解決方案包括一個具有高性能 Ascalon 通用內核的 Aegis chiplet 和一個或多個具有用於 ML 工作負載的 Tensix 內核的 chiplet。根據業務需求(以及公司的財務能力),Tenstorrent 可以使用 3nm 級工藝技術實現AI chiplet,從而利用更高的晶體管密度和Tensix核心數,或者它可以繼續使用 Black Hole chiplet進行AI工作負載(甚至將一些工作分配給24個 SiFive X280內核,該公司表示)。小芯片將使用上述 2TB/s 互連相互通信。
Aegis小芯片具有128個通用 RISC-V八寬Ascalon內核,組織在四個32核集羣中,具有集羣間一致性,將使用3nm級工藝技術製造。事實上,Aegis CPU小芯片將率先使用3納米級製造工藝,這可能會使該公司在高性能CPU設計方面名列前茅。
同時,Grendel 將使用LPDDR5內存子系統、PCIe和以太網連接,因此它將提供比公司現有解決方案明顯更高的推理和訓練性能。説到Tensix內核,需要注意的是,雖然Tenstorrent的所有AI內核都被稱為Tensix,但這些內核實際上是在進化的。
“[Tensix]的變化是漸進的,但它們確實存在,”該公司創始人Ljubisa Bajic 解釋道。“[他們添加了]新的數據格式、FLOPS/SRAM 容量的變化比率、SRAM 帶寬、片上網絡帶寬、新的稀疏特性以及一般特性。”
有趣的是,不同的Tenstorrent幻燈片提到了Black Hole和Grendel產品的不同內存子系統。這是因為該公司一直在尋找最高效的內存技術,並且因為它獲得了DRAM控制器和物理接口 (PHY) 的許可。因此,它在選擇確切的內存類型時具有一定的靈活性。事實上,Lien 表示,Tenstorrent也在為未來的產品開發自己的內存控制器,但對於2023~2024年的解決方案,它打算使用第三方的MC和PHY。同時,出於本考慮,目前Tenstorrent不打算使用任何奇特的內存,例如HBM。
商業模式:銷售解決方案和許可 IP
雖然 Tenstorrent 有五個不同的CPU IP(儘管基於相同的微架構),但它只有 AI/ML 產品在流水線中(如果不考慮完全配置的服務器)使用SiFive的 X280 或 Tenstorrent 的八寬 Ascalon CPU 內核. 因此,有理由問為什麼它需要這麼多的CPU內核實現。
對這個問題的簡短回答是,Tenstorrent 有一個獨特的商業模式,包括 IP 許可(以 RTL、硬宏,甚至 GDS 形式)、銷售小芯片、銷售附加 ML 加速卡或具有 CPU 和 ML 小芯片的 ML 解決方案,並銷售包含這些卡的完全配置的服務器。
構建自己的 SoC 的公司可以授權 Tenstorrent 開發的 RISC-V 核心,廣泛的 CPU IP 組合使公司能夠競爭需要不同級別性能和功率的解決方案。
服務器供應商可以使用 Tenstorrent 的 Grayskull 和 Wormhole 加速器卡或 Blackhole 和 Grendel ML 處理器來構建他們的機器。同時,那些不想構建硬件的實體可以購買預構建的 Tenstorrent 服務器並進行部署。
這種商業模式看起來有些爭議,因為在許多情況下,Tenstorrent 與自己的客户競爭並將競爭。然而,歸根結底,如Nvidia 等廠商提供了基於這些主板的附加卡和預製服務器,而且戴爾或 HPE 等公司似乎並不太擔心這一點,因為它們為特定客户提供解決方案,而不僅僅是積木。
總結
大約兩年前,隨着 Jim Keller 的聘用,Tenstorrent 一躍成為人們關注的焦點。在兩年內,該公司招募了一批頂尖工程師,他們正在為數據中心級 AI/ML 解決方案和系統開發高性能 RISC-V 內核。開發團隊的成就包括全球首個八位 RISC-V 通用 CPU 內核,以及可用於 AI 和 HPC 應用的適當系統硬件架構。
該公司有一個全面的路線圖,包括基於 RISC-V 的高性能 CPU 小芯片和先進的 AI 加速器小芯片,它們有望為機器學習提供功能強大的解決方案。請記住,AI 和 HPC 是有望實現爆炸式增長的主要大趨勢,提供 AI 加速器和高性能 CPU 內核似乎是一種非常靈活的商業模式。
AI 和 HPC 市場競爭激烈,因此當您想與老牌競爭對手(AMD、英特爾、Nvidia)和新興玩家(Cerebras、Graphcore)競爭時,必須聘請一些世界上最優秀的工程師。與大型芯片開發商一樣,Tenstorrent 擁有自己的通用 CPU 和 AI/ML 加速器硬件,這是得天獨厚的優勢。同時,由於該公司使用 RISC-V ISA,因此目前無法解決一些市場和工作負載,至少就 CPU 而言是這樣。