誰能幹掉HBM?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。1小时前
AI離不開HBM,這種看法正在不斷深入人心。
對於AI大模型訓練來説,大量並行數據處理要求大算力和高帶寬,算力決定了每秒處理數據的速度越快,而帶寬決定了每秒可訪問的數據,GPU負責提供算力,而存儲器負責提供帶寬。
如今的局面是,大家可以不用英偉達的GPU,但絕對離不開海力士、三星或美光的HBM,英偉達雖然有CUDA這條護城河,但也不能完全阻止用户遷移向其他廠商,但HBM就不同了,不論是AMD還是英特爾,還是其他定製芯片,上面無一例外都嵌着密密麻麻的HBM。
但HBM並不是普通DRAM,它的價格早已到了一個令人咋舌的地步,在相同密度的情況下,HBM 的價格大約是DDR5的5倍,據瞭解,目前HBM成本在AI服務器成本中佔比排名第三,約佔9%,單機平均售價高達18000美元。
(圖片來自美光)
即便是如此昂貴的HBM,依舊處於供不應求的狀態,還在不斷漲價。TrendForce在今年5月表示,2025年HBM定價談判已於2Q24開啓,但由於DRAM整體產能有限,供應商已初步漲價5~10%以管理產能限制,影響範圍涵蓋HBM2e、HBM3與HBM3e。
其指出,從各大AI方案商來看,HBM規格需求將明顯朝HBM3e轉移,12Hi堆疊產品預期將會增加,將帶動單顆芯片HBM容量提升,預估2024年HBM需求年增率將逼近200%,2025年則有望再翻一番。
掏的起錢的巨頭會繼續加價買更大容量的HBM,但對於中小型廠商來説,昂貴的HBM已經成為了它們踏上大模型之路後的最大阻礙。
誰會給昂貴的AI內存解圍呢?
硅仙人,要把內存價格打下來
“硅仙人”吉姆·凱勒(Jim Keller)曾不止一次批評了目前AI芯片的昂貴价格。
吉姆·凱勒是誰?他的職業生涯橫跨 DEC、AMD、SiByte、Broadcom、PA Semi、Apple、Tesla、Intel,從AMD的K8架構,到蘋果的A4和A5處理器,再到AMD的Zen架構,最後是特斯拉的FSD自動駕駛芯片,背後都有着這位大神的身影。
而在2021年,他離開了英特爾,加入了位於加拿大多倫多的AI芯片初創公司Tenstorrent,擔任這家公司的CTO,負責開發下一代AI芯片。
凱勒一直致力於解決人工智能硬件成本高昂的問題,將其視為 Tenstorrent 等初創公司挑戰 英偉達等巨頭的切入點。他曾提出,英偉達在開發 Blackwell GPU 時,如果使用以太網互連技術,本可以節省 10 億美元。
“有很多市場沒有得到英偉達的良好服務,”凱勒在接受日經亞洲採訪時表示,隨着 AI 在智能手機、電動汽車和雲服務中的應用不斷擴大,越來越多的公司在尋找更便宜的解決方案,他提到,“有很多小公司不願意支付 20000 美元購買市場上被認為是最佳選擇的英偉達高端GPU。”
Tenstorrent正準備在今年年底出售其第二代多功能 AI 芯片。該公司表示,在某些領域,其能效和處理效率優於英偉達的 AI GPU。據 Tenstorrent 稱,其 Galaxy 系統的效率是英偉達AI 服務器 DGX 的三倍,且成本降低了 33%。
凱勒表示,這一成就的原因之一是公司不使用高帶寬內存(HBM),這種先進的內存芯片能夠快速傳輸大量數據。HBM 是生成型 AI 芯片的重要組件,在英偉達產品的成功中發揮了重要作用。
然而,HBM 也是 AI 芯片高能耗和高價格的罪魁禍首之一。“即使是使用 HBM 的人也在與其成本和設計時間作鬥爭,”凱勒説道,因此,他做出了不使用這項技術的技術決策。
在典型的 AI 芯片組中,GPU 每次執行過程時都會將數據發送到內存。這需要 HBM 的高速數據傳輸能力。然而,Tenstorrent 特別設計了其芯片,大幅減少此類傳輸。凱勒表示,通過這種新方法,公司設計的芯片在某些 AI 開發領域可以替代 GPU 和 HBM。
他還表示,公司正在儘可能地設計其產品以實現“成本效益”。他補充説,許多其他公司也在尋找更好的內存解決方案,但他謹慎地承認,顛覆現有的龐大 HBM 產業需要數年時間。
凱勒預測,將會有更多新玩家出現,填補英偉達未能服務的各種 AI 市場,而不是由某一家公司取代英偉達。
值得一提的是,Tenstorrent首席CPU架構師此前也分享了類似的觀點,他強調該公司更務實、更經濟的精神使其系統設計比Nvidia更具成本效益,計算能力更強。
他表示:“客户不需要支付保時捷或法拉利的價格來運行他們的生成式人工智能模型,他們只需要性價比最高、運行速度最快的汽車。” Lien 預計,目前硬件價格昂貴的趨勢將逐漸消退,市場最終將趨於穩定。
對於吉姆·凱勒來説,過於昂貴的HBM似乎已經阻礙到了AI的發展,儘管大公司有雄厚的財力來承擔這一切,但小公司早就難以為繼,而他負責的Tenstorrent芯片,就是為了解決這一問題而來的。
無需HBM的AI芯片?
2020年5月,Tenstorrent 推出了自己首款產品—— Grayskull,這是一款基於 GF 12nm 工藝,約 620 平方毫米的處理器,最初設計為推理加速器和主機。它包含 120 個定製核心,採用 2D 雙向網格結構,提供 368 TeraOPs 的 8 位計算能力,功耗僅為 65 瓦。每個定製核心都配備了數據控制的包管理引擎、包含 Tenstorrent 自定義 TENSIX 核心的包計算引擎,以及用於非標準操作(如條件語句)的五個 RISC 核心。該芯片側重於稀疏張量運算,將矩陣運算優化為壓縮數據包,通過圖形編譯器和數據包管理器實現計算步驟的流水線並行化。這也實現了動態圖形執行,與其他一些人工智能芯片模型相比,它允許計算和數據異步傳輸,而不是特定的計算/傳輸時間域。
今年3月,Tenstorrent開始銷售基於Grayskull的兩款開發板。Tenstorrent表示,Grayskull e75 和 e150是 Tenstorrent 的基礎、僅用於推理的 AI 圖形處理器,每個都採用 Tensix Cores 構建,包括一個計算單元、片上網絡、本地緩存和“小型 RISC-V”核心,從而在芯片中實現獨特高效的數據移動,專為尋求經濟高效、可定製的傳統 GPU 替代方案的冒險型 ML 開發人員而設計。
其中Grayskull e75是一款75瓦的PCIe Gen 4卡,售價為600美元,其擁有一顆1GHz的NPU芯片,集成了96顆Tensix核心和96MB的SRAM,該板還包含8GB的標準LPDDR4 DRAM,而Grayskull e150將時鐘頻率提高到1.2GHz,核心數量增加到120個,片上內存相應增加到120MB,但片外DRAM仍為8GB的LPDDR4,其功耗提升至200瓦,售價800美元,
據瞭解,Tenstorrent Grayskull架構不同於其他數據中心AI加速器(GPU/NPU),排列的Tensix核心包含多個CPU,供計算單元使用,後者包括向量和矩陣引擎。這種結構化的顆粒方法可以增加數學單元的利用率,從而提高每瓦性能。每個Tensix核心還具有1MB的SRAM,提供了充足的片上內存總量,與其他大內存的NPU不同,Grayskull可以連接到外部內存。
當然最重要的還是,Grayskull使用標準DRAM而不是昂貴的HBM,僅這一項,就省去了一大半成本,這也符合吉姆·凱勒所提到的追求成本效益的目標。
軟件是NPU和其他處理器挑戰者的一個薄弱環節,也是Grayskull與競爭對手相比的一個強項。Tenstorrent為此提供兩種軟件流程:TT-Buda基於標準AI框架(如PyTorch和TensorFlow)將模型映射到Tenstorrent硬件上,而TT-Metalium則為開發人員提供直接的硬件訪問,並允許他們創建用於更高級框架的庫。在Grayskull架構的支持下,Metalium因提供類似計算機的編程模型而脱穎而出,並可能吸引擁有低級編程資源的客户。
此外,從一開始,Tenstorrent就將功耗效率作為一個差異化因素,e75相對較低的75瓦,符合標準PCIe和OCP功率範圍,像這樣的設計可能是一個很好的服務器附加板,用於推理領域。除了Grayskull芯片和板卡外,Tenstorrent還開始授權其高性能RISC-V CPU和Tensix核心,並與合作伙伴共同開發Chiplets。
當然,這只是一個開始,在吉姆·凱勒加盟後,Tenstorrent的野心開始變得更大。
今年7月,Tenstorrent推出了新一代Wormhole處理器,專為AI工作負載設計,承諾以低價提供不錯的性能。該公司目前提供兩種附加的PCIe卡,分別搭載一個或兩個Wormhole處理器,還有TT-LoudBox和TT-QuietBox工作站,專為軟件開發人員設計。此次發佈主要面向開發人員,而非那些將Wormhole板用於商業工作負載的用户。
Tenstorrent首席執行官吉姆·凱勒表示:“讓更多產品進入開發者手中總是令人感到滿意的。發佈搭載Wormhole卡的開發系統有助於開發人員進行多芯片AI軟件的擴展和開發工作。除了此次發佈之外,我們也很高興第二代產品Blackhole的流片和啓動進展順利。”
每個Wormhole處理器配備72個Tensix核心(包含五個支持各種數據格式的RISC-V核心),擁有108MB的SRAM,以1GHz頻率提供262 FP8 TFLOPS的性能,功耗為160W。單芯片Wormhole n150卡配備12GB的GDDR6內存,帶寬為288GB/s。
Wormhole處理器提供靈活的可擴展性,以滿足各種工作負載的需求。在標準工作站設置中,四張Wormhole n300卡可以合併為一個單元,在軟件中顯示為一個統一的、廣泛的Tensix核心網絡。該配置允許加速器處理相同的工作負載、分配給四個開發人員或同時運行多達八個不同的AI模型。這種可擴展性的一個關鍵特徵是它可以原生運行,無需虛擬化。在數據中心環境中,Wormhole處理器可以通過PCIe在一台機器內部擴展,也可以通過以太網在多台機器之間擴展。
從性能角度來看,Tenstorrent的單芯片Wormhole n150卡(72個Tensix核心,1GHz,108MB SRAM,12GB GDDR6,帶寬為288GB/s)在160W功耗下提供262 FP8 TFLOPS,而雙芯片Wormhole n300板(128個Tensix核心,1GHz,192MB SRAM,24GB GDDR6,帶寬為576GB/s)在300W功耗下可提供高達466 FP8 TFLOPS(根據Tom’s Hardware的數據)。
與英偉達的產品相比,英偉達的A100不支持FP8,但支持INT8,峯值性能為624 TOPS(稀疏時為1,248 TOPS),而英偉達的H100支持FP8,峯值性能高達1,670 TFLOPS(稀疏時為3,341 TFLOPS),這與Tenstorrent的Wormhole n300相比有很大差距。
不過價格又彌補了性能上的不足,Tenstorrent的Wormhole n150售價為999美元,而n300售價為1,399美元。相比之下,一張英偉達H100卡的售價可能高達30,000美元。
除了板卡外,Tenstorrent還為開發者提供預裝四張n300卡的工作站,包括價格較低的基於Xeon的TT-LoudBox和高端的基於EPYC的TT-QuietBox。
不論是Grayskull還是Wormhole,都只是Tenstorrent路線圖裏的第一步,真正的重頭戲還在後面。
(圖片來自Tenstorrent)
根據Tenstorrent披露的路線圖,第二代架構Blackhole 芯片有 140 個 Tensix 內核,以及更多的 DRAM 和更快的以太網,同時具備16 個 RISC-V 內核,獨立於 Tensix 內核,可以脱離x86 CPU來運行操作系統,其已在台積電 N6 上流片並進展順利。
而Tenstorrent 的第三代架構將基於芯片組,並將遷移到三星 SF4,其包括Quasar 和 Grendel ,將採用更新的 Tensix 核心,目的是將四個 Tensix 核心與共享的 L2 聚集在一起,以便更好地重用內存中已有的權重,它們預計將於 2025 年推出。
當然,路線圖中後續的三款芯片,都沒有采用HBM,而是選擇了GDDR6,Tenstorrent和吉姆·凱勒都有一個目標,那就是打破HBM這個昂貴的神話。
曲線救國的小眾方案
Tenstorrent並不是唯一一個想要用其他內存替代HBM的公司。
2024年2月,谷歌TPU第一代設計者Jonathan Ross所創立的Groq公司正式宣佈,其新一代LPU在多個公開測試中,以幾乎最低的價格,相比GPU推理速度翻倍,後續有三方測試結果表明,該芯片對大語言模型推理進行優化效果顯著,速度相較於英偉達GPU提高了10倍。
根據知情人士透露,LPU的工作原理與GPU截然不同。它採用了時序指令集計算機(Temporal Instruction Set Computer)架構,這意味着它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內存中加載數據。Groq選擇了SRAM,其速度比GPU所用的存儲器快約20倍,這一特點不僅有助於避免HBM短缺的問題,還能有效降低成本。
有從事人工智能開發的用户稱讚,Groq是追求低延遲產品的“遊戲規則改變者”,低延遲指的是從處理請求到獲得響應所需的時間。另一位用户則表示,Groq的LPU在未來有望對GPU在人工智能應用需求方面實現“革命性提升”,並認為它可能成為英偉達A100和H100芯片的“高性能硬件”的有力替代品。
但Groq並非沒有缺點,其選擇SRAM的主要理由,是因為它只負責推理、不訓練,而推理所需要的存儲空間比訓練要小得多,所以Groq的單板卡只有230MB的內存,雖然SRAM確實要比DRAM快,但其價格很貴,容量較小,LPU乃至其他計算芯片,大量使用SRAM時需要有所權衡。
2012 年在加利福尼亞州聖何塞創立的NEO Semiconductor則是提出了自己的HBM替代方案,近日,該公司宣佈,自己開發出了帶有附加神經元電路的三維 DRAM,通過避免從高帶寬內存到 GPU 的數據傳輸,可以加速 AI 處理。
據瞭解,Neo 的3D DRAM 技術是其 3D X-AI 300 層、128 Gbit DRAM 芯片的基礎,每個芯片有 8,000 個神經元和 10 TBps 的 AI 處理能力。3D X-AI 芯片的容量和性能可以擴展 12 倍,最多可堆疊 12 個 3D X-AI 芯片,就像高帶寬內存 (HBM) 一樣,提供 192 GB (1,536 Gb) 的容量和 120 TBps 的處理吞吐量。
NEO Semiconductor 創始人兼首席執行官 Andy Hsu 在一份聲明中表示:“典型的 AI 芯片使用基於處理器的神經網絡。這涉及結合高帶寬內存來模擬突觸以存儲權重數據,以及圖形處理單元 (GPU) 來模擬神經元以執行數學計算。性能受到 HBM 和 GPU 之間數據傳輸的限制,來回的數據傳輸會降低 AI 芯片的性能並增加功耗。”
3D X-AI 模擬人工神經網絡 (ANN),包括用於存儲重量數據的突觸和用於處理數據的神經元,Neo 表示這使其非常適合加速下一代 AI 芯片和應用,Hsu 補充道:“帶有 3D X-AI 的 AI 芯片使用基於內存的神經網絡。這些芯片具有神經網絡功能,每個 3D X-AI 芯片中都有突觸和神經元。它們用於大幅減少執行 AI 操作時 GPU 和 HBM 之間數據傳輸的繁重工作量。我們的發明大大提高了 AI 芯片的性能和可持續性。”
此前,SK海力士和三星等NAND供應商已經嘗試過計算內存,但用例太小眾,不足以證明大規模生產是合理的,而Neo 希望 AI 處理能夠變得如此普及,從而遠遠超越這種小眾現象,其表示,3D X-AI 芯片可與標準 GPU 一起使用,可以以更低的成本提供更快的 AI 處理。
HBM,並非固若金湯?
對於內存廠尤其是SK海力士來説,HBM是在堅持多年後獲得的一筆意外之財,事實上,就連行業領先了三十餘年的三星都出現了誤判,在AI浪潮來臨的前夜錯失了機會。
HBM因AI而興,在大模型中扮演着不可或缺的角色,這是毋庸置疑的,但HBM也在面臨着各種挑戰,尤其是更多具備成本優勢的方案在不斷湧現,如果HBM不能通過其他方式來降低成本,它未來的地位就恐怕有點危險了。