HBM,沒有對手?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。16分钟前
來源:內容由半導體行業觀察(ID:icbank)編譯自embedded,謝謝。
過去一年多,生成式人工智能(AI)應用的爆炸式增長刺激了對人工智能服務器的需求,以及對人工智能處理器的需求猛增。這些處理器中的大多數(包括 AMD 和 Nvidia 的計算 GPU、Intel 的 Gaudi 或 AWS 的 Inferentia 和 Trainium 等專用處理器以及 FPGA)都使用高帶寬內存 (HBM),因為它提供了當今可能的最高內存帶寬。
因此,根據TrendForce 的説法,內存製造商美光、三星和 SK 海力士在 2023 年將 HBM 產量提高以後,並在 2024 年進一步提高,例如三星就在最近宣佈了擴產計劃。
這些承諾將成為業界的挑戰。
雖然HBM很不錯,但有很多 AI 處理器,特別是那些設計用於運行推理工作負載的處理利用 GDDR6/GDDR6X 甚至 LPDDR5/LPDDR5X 。
此外,還可以給運行 AI 工作負載(針對特定指令進行優化)的通用 CPU 準備使用商用內存,這就是為什麼在未來幾年我們將看到 MCRDIMM 和 MRDIMM 內存模塊將顯着提高容量和帶寬達到新的水平。
但我們必須強調的是,HBM 仍將保持帶寬王者地位。
HBM:不惜一切為帶寬
考慮到現代類型內存的性能規格和功能,HBM 在帶寬需求大的應用程序中如此受歡迎的原因顯而易見。每個堆棧的速度約為 1.2 TB/s,任何傳統內存都無法在帶寬方面擊敗 HBM3E。但這種帶寬是有代價的,並且在容量和成本方面存在一些限制。
人工智能工程聯盟MLCommons的執行董事 David Kanter 表示:“HBM 不僅具有優越的帶寬,而且還具有功耗,因為距離很短。” “主要弱點是它需要先進的封裝,目前限制了供應並增加了成本。“但 HBM 幾乎肯定會永遠佔有一席之地。”
HBM 的這些特性使得 DDR、GDDR 和 LPDDR 類型的內存也用於許多需要帶寬的應用,包括 AI、HPC、圖形和工作站。美光表示,這些容量優化和帶寬優化類型內存的開發正在迅速進行,因此人工智能硬件開發人員對它們有明確的需求。
美光計算和網絡業務部高級經理 Krishna Yalamanchi 表示:“HBM 是一項非常有前途的技術,其市場未來增長潛力巨大。” “目前應用主要集中在人工智能、高性能計算等需要高帶寬、高密度、低功耗的領域。隨着越來越多的處理器和平台採用它,該市場預計將快速增長。”
有分析人士指出,自 2012 年以來,訓練模型以每年 10 倍的速度增長,而且看起來[增長]並沒有放緩。”
特別有趣的是,那些需要 HBM 的公司往往會在一夜之間採用該標準的最新版本。
為此Gartner預測,高帶寬內存的需求預計將從 2022 年的 1.23 億 GB 激增至 2027 年的 9.72 億 GB,這意味着 HBM 位需求預計將從 2022 年佔 DRAM 整體的 0.5% 增加到 2027 年的 1.6%這一激增歸因於標準 AI 和生成 AI 應用中對 HBM 的需求不斷升級。
Gartner分析師認為,HBM收入將從2022年的11億美元增至2027年的52億美元,而HBM價格相對2022年的水平將下降40%。Gartner指出,由於技術進步和內存製造商的承諾不斷增加,HBM 堆棧的密度也將增加,從 2022 年的 16 GB 增加到 2027 年的 48 GB。與此同時,美光似乎更為樂觀,預計在 2026 年左右推出 64 GB HBMNext (HBM4) 堆棧。HBM3 和 HBM4 規範允許構建 16-Hi 堆棧,因此可以使用 16 個 32-Gb 器件構建 64 GB HBM 模塊,但這將要求內存製造商縮短內存 IC 之間的距離,其中包括使用新的生產技術。
鑑於 Nvidia 佔據了計算 GPU 市場的最大份額,該公司很可能成為業界最大的 HBM 內存消費者,並且這種情況將持續一段時間。
但我們也不得不承認,HBM難度極大。
HBM:太貴了,太難了
生產 HBM 已知良好堆疊芯片 (KGSD) 從根本上來説比生產傳統 DRAM 芯片更為複雜。首先,用於 HBM 的 DRAM 設備與用於商用內存(例如 DDR4、DDR5)的典型 DRAM IC 完全不同。內存生產商必須製造 8 或 12 個 DRAM 設備,對其進行測試,然後將它們封裝在預先測試的高速邏輯層之上,然後測試整個封裝。這個過程既昂貴又漫長。
“HBM 堆棧基於 3D 堆棧 DRAM 架構,該架構使用硅通孔 (TSV) 垂直連接多個芯片,這與商用 DRAM 根本不同,”Yalamanchi 説。“這種帶有 TSV 的堆疊架構可實現非常寬的內存接口(1024 位)、高達 36 GB 的內存容量,並可實現超過 1 TB/s 的高帶寬操作。DRAM 存儲體和數據架構從根本上進行了重新設計,以支持此類並行寬接口。”
這些並不是一個可怕的成本增加因素,這些工具和方法是根據 3D NAND 建立的,您可以通過硅通孔進行連接,所需要做的就是移植現有的 TSV 方法(來自 3D NAND),”DataSecure 首席技術官兼 Boolean Labs 首席技術官兼首席科學家 Michael Schuette説。
但用於 HBM 的 DRAM 設備必須具有寬接口,因此它們的物理尺寸更大,因此比常規 DRAM IC 更昂貴。這也是為什麼美光首席執行官 Sanjay Mehrotra 認為,為滿足人工智能服務器的需求而增加 HBM 內存產量將影響所有 DRAM 類型的比特供應。
Mehrotra 在早前的電話會議上表示:“高帶寬內存 (HBM) 生產將成為行業位供應增長的阻力。” “HBM3E 芯片的尺寸大約是同等容量 DDR5 的兩倍。HBM 產品包括邏輯接口芯片,並且具有更加複雜的封裝堆棧,這會影響良率。因此,HBM3 和 3E 需求將吸收行業晶圓供應的很大一部分。HBM3 和 3E 產量的增加將降低全行業 DRAM 位供應的整體增長,尤其是對非 HBM 產品的供應影響,因為更多產能將被轉移到解決 HBM 機會上。美光Mehrotra 在最近的電話會議上表示:“高帶寬內存 (HBM) 生產將成為行業位供應增長的阻力。” “HBM3E 芯片的尺寸大約是同等容量 DDR5 的兩倍。HBM 產品包括邏輯接口芯片,並且具有更加複雜的封裝堆棧,這會影響良率。因此,HBM3 和 3E 需求將吸收行業晶圓供應的很大一部分。HBM3 和 3E 產量的增加將降低全行業 DRAM 位供應的整體增長,尤其是對非 HBM 產品的供應影響,因為更多產能將被轉移到解決 HBM 機會上。”
HBM3E 本質上是具有顯着減速的 HBM3,因此雖然 DRAM 製造商必須確保良好的良率,然後調整其生產方法以更有效地構建 8-Hi 24 GB 和 12-Hi 36 GB HBM3E KGSD,但新型內存將並不代表 HBM 生產的重大轉變。相比之下,它的繼任者將會。計劃的 HBM3E 產能提升對我們的位供應能力也產生了類似的影響。”
HBM3E 本質上是具有顯著減速的 HBM3,因此雖然 DRAM 製造商必須確保良好的產量,然後調整其生產方法以更有效地構建 8-Hi 24 GB 和 12-Hi 36 GB HBM3E KGSD,但新型內存將並不代表 HBM 生產的重大轉變。相比之下,它的繼任者將會。
HBM4 將內存堆棧接口擴展至 2048 位,這將是自八年前推出該內存類型以來 HBM 規範最重大的變化之一。對於存儲器製造商、SoC 開發商、代工廠以及外包組裝和測試 (OSAT) 公司而言,將 I/O 引腳數量增加兩倍,同時保持相似的物理佔用空間,極具挑戰性。三星表示,HBM4 需要從目前用於 HBM 的微凸塊鍵合(這已經很困難且昂貴)過渡到直接銅對銅鍵合,這是一種用於集成的最先進技術未來幾年的多芯片設計。
“如果我看看 [即將推出的 HBM4 規範] 和 2048 位寬接口,這將使引腳數達到約 5500 個引腳,這與大多數服務器 CPU 或 GPU [就引腳數而言] 處於同一水平,”Schuette説。“如果您嘗試在小封裝設計中佈線,最終會得到 20 層重新分佈層/中介層之類的東西,如果您選擇更大的封裝、更少的層數,最終會超過允許的最大走線長度”。
SK 海力士甚至設想 HBM4 必須以 3D 方式集成在片上系統上才能實現最大效率,但這將進一步增加成本。
“在接下來的幾年中,我認為我們可能會通過更緊密的集成(例如 3D 堆疊)獲得卓越的性能和效率,但這可能會更加昂貴,”Kanter説。
Schuette 認為,由於 HBM4 的引腳數極高,使用具有插入器和重新分配層的傳統方法將具有 2048 位接口的 HBM4 堆棧連接到主機處理器可能非常困難。
“最微小的扭曲就會導致連接不良,”Schuette 解釋道。“如果它只是一個接地引腳,你可能不會注意到,但如果它是一個信號引腳,你就完蛋了。
但 3D 封裝技術將需要更復雜的設備,因此很可能至少在最初只有代工廠自己會在 2025 年至 2026 年的某個時候提供 HBM4 集成。
據報道,為了不斷縮小 DRAM 單元尺寸並控制內存功耗,三星打算在 HBM4 中使用 FinFET 晶體管。FinFET 的結合預計將優化即將推出的 HBM 器件的性能、功耗和麪積縮放。然而,該技術對成本的影響仍不確定。此外,三星何時在標準 DRAM IC 中採用 FinFET 的時間表尚未確定。目前,三星僅確認 FinFET 將用於 HBM4。
Salvador 表示:“成本問題仍然存在,HBM4 的實施問題可能會延長 HBM3/HBM3E 的使用壽命,特別是在成本更加敏感的地方。”
Yalamanchi 表示:“人們想要採用最快版本的 HBM 並不是一個準確的假設,因為許多因素都會影響內存技術的選擇,例如成本、供應限制、平台準備情況和性能要求。”
由於架構和封裝成本根本不同,HBM 仍將是一種昂貴的內存類型,服務於不斷增長的利基市場。Michael Schuette 部分同意這一觀點。他認為,雖然 HBM 很好地服務於其目標市場,但它很難滿足更廣泛的市場需求。
“HBM 似乎仍然是一種利基產品,並且很可能仍然是一種產品,”Schuette 説。
HBM 能否在成本上與商品或專業內存競爭?
“我不想説永遠不會,因為那是一段很長的時間,”Kanter説。“但 HBM 要想具有成本競爭力,就需要大幅降低封裝成本和/或顯着增加 GDDR 成本。或者可能是根本性的技術轉變——例如,如果 GDDR 從高速銅信號轉為光纖信號。但我不確定那時是否會是 GDDR。”
LPDDR:低功耗選項
雖然 HBM 在性能方面無與倫比,但對於許多應用來説價格昂貴且耗電,因此開發人員選擇將 LPDDR5X 用於其帶寬要求較高的應用,因為這種類型的內存為他們提供了價格、性能和功耗之間的適當平衡。
例如,蘋果公司多年來一直在其 PC 中使用 LPDDR 內存,然後才成為一種趨勢。到目前為止,該公司已經很好地完善了基於 LPDDR5 的內存子系統,其性能是競爭解決方案無法比擬的。Apple 的高端台式機 — 由 M2 Ultra SoC 提供支持的 Mac Studio 和 Mac Pro — 使用兩個 512 位內存接口可擁有高達 800 GB/s 的帶寬。結合實際情況來看:AMD 最新的 Ryzen Threadripper Pro 配備 12 通道 DDR5-4800 內存子系統,峯值帶寬可達 460.8 GB/s。
像蘋果一樣,在其整個設備系列中使用 LPDDR5 有一些額外的好處,例如 LPDDR5 控制器 IP 和 PHY 在不同的 SoC 中重複使用,以及大量採購此類內存,這為談判提供了更好的籌碼。蘋果當然不是唯一一家將 LPDDR 內存用於高帶寬處理器的公司。Tenstorrent 將這種內存用於其 Grayskull AI 處理器。
“如今,它們似乎服務於不同的利基市場,並且存在差異化的廣泛趨勢,”Kanter説。“HBM 更面向數據中心,LPDDR 更面向邊緣。話雖如此,絕對有人針對類似的市場使用不同的內存類型。以數據中心為例——有些設計使用 HBM,有些設計使用 GDDR,有些設計使用常規 DDR,有些設計使用 LPDDR。”
LPDDR 存儲芯片的顯着優勢之一是其相對廣泛的接口和相當快的運行速度。典型的 LPDDR5 和 LPDDR5X/LPDDR6T IC 具有 32 或 64 位接口,支持高達 9.6 GT/s 的數據傳輸速率,這比批量生產的 DDR5 數據速率(8 或 16 位、截至 2023 年 10 月,速度高達 7.2 GT/s)更好。此外,移動內存自然比客户端 PC 和服務器的主流 DDR 內存消耗更少的功率。
對於 Tenstorrent 開發的應用程序來説,內存帶寬至關重要,但功耗也至關重要,這就是為什麼如今 LPDDR 的使用範圍遠遠超出了智能手機和客户端 PC。
GDDR:價格與性能之間的平衡
Tenstorrent 為我們帶來了另一種類型的內存,該公司將在即將推出的 Wormhole 和 Blackhole AI 處理器中使用這種內存。與此同時,Nvidia 將 GDDR6 和 GDDR6X 用於各種用於 AI 推理的 GPU。
“GDDR 內存用於人工智能和其他應用,對於人工智能推理應用來説是一個不錯的選擇,因為 GDDR 仍然提供比 DDR 更高的帶寬和更低的延遲,”Yalamanchi 説。“與 HBM 相比,GDDR 的成本更低,複雜性也更低。例如,GDDR6可以在Nvidia用於人工智能推理的Tesla T4 GPU以及用於人工智能推理和圖形應用的L40S中找到。”
GDDR6 通常比 LPDDR 消耗更多功率,並且現代 GDDR6/GDDR6X 芯片配備 32 位接口(即比某些 LPDDR5X 更窄),但 GDDR6/GDDR6X/GDDR7 內存的運行速度要快得多。
事實上,GDDR7 有望以高達 36 GT/s 的速度運行,並且在如此高的數據速率下,基於它的內存子系統將比採用 LPDDR5X 的內存子系統快得多,特別是要記住,我們正在談論潛在的寬內存接口,例如 384 或 512 位。即使在 32 GT/s 數據傳輸速率下,384 位 LPDDR7 內存子系統也可提供 1,536 TB/s 峯值帶寬,遠遠高於 512 位 LPDDR5X-9600 內存子系統 (614.4 GB/s)。然而,我們可以猜測,LPDDR7 內存子系統也將比使用 LPDDR5X 的內存子系統更加耗電,但考慮到其性能,我們認為這是一個公平的權衡。
MCR-DIMM 和 MR-DIMM
如果沒有 MCR-DIMM 和 MR-DIMM,關於高性能內存解決方案的故事就不完整,它們是主要為服務器設計的新型雙列 DDR5 內存模塊,目前正在開發中。這些技術背後的理念是,在每個 CPU 的核心數量不斷增加的情況下,進一步提高內存模塊的效率,並將其峯值帶寬提高到超過 DDR5 支持的速度。
從較高層面來説,多路複用器組合列 DIMM (MCR-DIMM) 是配備多路複用器緩衝區的雙列緩衝內存模塊。該緩衝區可以同時從兩個隊列檢索 128 字節的數據,並且它設計為以約 8800 MT/s 的高速與內存控制器配合使用(基於最近發佈的美光路線圖),即 400 MT/s高於原始 DDR5 規範規定的最大數據速率。這些模塊旨在增強性能,同時簡化大容量雙列模塊的構造。MCR-DIMM 得到了英特爾和 SK Hynix 的支持,並將獲得英特爾第六代至強可擴展“Granite Rapids”平台的支持,而美光計劃於 2025 年初推出 MCR-DIMM。
多列緩衝 DIMM (MR DIMM) 在概念上非常相似:它們是具有多路複用器緩衝區的雙列模塊,可同時與兩個列交互,並以超出 DDR5 指定速度的速度與內存控制器一起運行。該標準的第一代速度為 8,800 MT/s,第二代為 12,800 MT/s,第三代最終達到 17,600 MT/s。該技術得到 JEDEC、AMD、Google 和 Microsoft 的支持。美光計劃於 2026 年開始出貨速度為 12,800 MT/s 的 MR-DIMM。此類模塊將提供巨大的帶寬和容量,這是由於數據中心 CPU 內的內核數量不斷增加以及對帶寬的需求而需要的。
“如果不採用新的形式來實現分類內存,那將是愚蠢的,”Schuette 説。“服務器要求與客户端不同,服務器上始終需要 ECC,而客户端 PC 上則不需要。”
奇異和混合內存子系統
雖然使用特定類型的內存可能是芯片和系統開發人員最明顯的做法,但也有人選擇使用不同類型內存的混合內存子系統。
例如,英特爾的 Xeon Max CPU 搭載 64 GB 封裝 HBM2e,並支持高達 6 TB 的六通道 DDR5 內存,每個插槽最多使用 16 個 DIMM。這些 CPU 主要針對高性能計算 (HPC) 環境,可以在 HBM Only 模式、HBM Flat 模式(提供快速和慢速內存層)和 HBM Caching 模式下工作。
另一個例子是 D-Matrix 的 AI 處理器,內部配備 256 MB SRAM(150 TB/s),並支持高達 32 GB 的 LPDDR5 內存,但帶寬相當有限。這些芯片主要用於推理,其架構是針對此類工作負載量身定製的。
“一般來説,緩存或片上 SRAM 可以減少一些外部帶寬需求,”Kanter説。“因此,作為推斷,如果我們可以接受小於 100MB 的神經網絡,[緩存會有所幫助]。同樣,我們可以將內存集成得更緊密,以減少封裝外帶寬。但真正大型培訓系統的許多前沿工作,例如訓練下一代LLM,總是需要更多帶寬。”
雖然歷史上由不同類型內存組成的混合和奇異內存子系統已被廣泛使用,例如用於 Xbox 360 遊戲機的 ATI 的 Xenos GPU 以及基於 eDRAM 的“子芯片”或英特爾的 Xeon Phi 7200-對於同時使用 MCDRAM 和 DDR4 內存的系列協處理器,Schuette 認為此類內存子系統效率不高。
“我的觀點是,你會得到兩全其美的結果,”他説。“設計開銷巨大,複雜性很高,我什至不想進行故障排除。
另一方面,根據定義,所有具有 CPU 和加速器的系統都使用混合內存子系統,並且它們已被證明非常高效。
“如今許多人工智能系統都是混合系統,”Kanter説。“例如,許多訓練系統傾向於使用 HBM 作為加速器,但使用 DDR 作為主機處理器,而主機處理器實際上在這裏做實際工作。數據中心推理系統也類似。”
綜上所述,HBM雖然很好,但一統不了江湖。