2nm芯片發佈,劍指英偉達_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。1小时前
近日,Marvell展示了其用於下一代 AI 和雲基礎設施的首款 2nm 硅片 IP。該工作硅片採用台積電的 2nm 工藝生產,是 Marvell 平台的一部分,用於開發定製 XPU、交換機和其他技術,以幫助雲服務提供商提升其全球運營的性能、效率和經濟潛力。
Marvell表示,公司的平台戰略以開發全面的半導體 IP 產品組合為中心,包括電氣和光學串行器/反串行器 (SerDes)、2D 和 3D 設備的芯片到芯片互連、先進的封裝技術、硅光子學、定製高帶寬存儲器 (HBM) 計算架構、片上靜態隨機存取存儲器 (SRAM)、片上系統 (SoC) 結構和計算結構接口(如 PCIe Gen 7),它們可作為開發定製 AI 加速器、CPU、光學 DSP、高性能交換機和其他技術的基礎。
此外,Marvell 還提供了 3D 同步雙向 I/O,運行速度高達 6.4 Gbits/秒,用於連接芯片內部的垂直堆疊芯片。如今,連接芯片堆棧的 I/O 路徑通常是單向的。轉向雙向 I/O 使設計人員能夠將帶寬提高兩倍和/或將連接數量減少 50%。
3D 同步雙向 I/O 還將為芯片設計人員提供更大的設計靈活性。當今最先進的芯片超過了將晶體管圖案描繪到硅片上的光罩或光掩模的尺寸。為了增加晶體管數量,預計所有先進節點處理器中約有 30% 將基於小芯片設計,即將多個芯片組合到同一個封裝中。藉助 3D 同步雙向 I/O,設計人員將能夠將更多芯片組合成越來越高的堆棧,以用於 2.5D、3D 和 3.5D 設備,這些設備比傳統的單片硅片設備提供更多功能,同時仍能像單個設備一樣運行。
Marvell表示,鑑於預計每年 TAM 增長率為 45%,預計到 2028 年定製硅片將佔據加速計算市場的約 25%。換而言之,Marvell將有望給英偉達帶來新的挑戰。
2nm,早已發佈
早在2024年3月,Marvell就推出了其新的2nm IP 技術平台,該平台專門針對基於台積電 2nm 級工藝技術(可能包括 N2 和 N2P)製造的加速基礎設施定製芯片而量身定製。該平台包括開發雲優化加速器、以太網交換機和數字信號處理器所必需的技術。
在Marvell看來,2nm 平台將使 Marvell 能夠提供高度差異化的模擬、混合信號和基礎 IP,以構建加速基礎設施。我們與台積電在 5nm、3nm 以及現在的 2nm 平台上的合作,對於幫助 Marvell 拓展硅片所能實現的極限起到了重要作用。”
2nm 平台基於 Marvell 廣泛的 IP 產品組合,其中包括能夠實現超過 200 Gbps 速度的先進 SerDes、處理器子系統、加密引擎、SoC 結構和高帶寬物理層接口。這些 IP 對於開發和生產一系列設備至關重要,例如定製計算加速器和光互連數字信號處理器。它們正在成為 AI 集羣、雲數據中心和其他支持用於 AI 和 HPC 工作負載的機器的基礎設施的通用構建塊。
雖然這些 IP 對於各種處理器、DSP 和網絡設備至關重要,但從頭開始開發它們(尤其是對於依賴於全柵極納米片晶體管的台積電 2nm 級工藝技術)既困難又耗時,有時效率低下,無論是從芯片空間還是經濟角度來看都是如此。這正是 Marvell 的 IP 產品組合有望大顯身手的地方。
在更早之前,Marvell憑藉其 5nm 平台,從快速跟隨者轉變為將先進節點技術引入基礎設施硅片的領導者。Marvell緊隨其後,推出了多款 5nm 設計,並推出了首款基於台積電 3nm 工藝的基礎設施硅片產品組合。
正是基於這些研究基礎上,Marvell火力全開。
定製HBM 架構橫空出世
據相關報道,Marvell在去年12月發佈的一種新的定製 HBM 計算架構,使 XPU 能夠實現更高的計算和內存密度。該新技術可供其所有定製硅片客户使用,以提高其定製 XPU 的性能、效率和 TCO。Marvell 正在與其雲客户和領先的 HBM 製造商 Micron、三星電子和 SK 海力士合作,為下一代 XPU 定義和開發定製 HBM 解決方案。
Marvell表示,HBM 是 XPU 中的關鍵組件,採用先進的 2.5D 封裝技術和高速行業標準接口。然而,當前基於標準接口的架構限制了 XPU 的擴展。新的 Marvell 定製 HBM 計算架構引入了定製接口,以優化特定 XPU 設計的性能、功率、芯片尺寸和成本。這種方法考慮了計算硅片、HBM 堆棧和封裝。
但是,HBM 內存犧牲了容量和可擴展性,換取了更高的帶寬。一般來説,HBM 部署在 CPU 和加速器或 XPU 旁邊的方式是,它通過連接兩塊硅片的硅中介層上的標準線路進行連接。XPU 通常有兩個或更多個 HBM 堆棧,由 DRAM 堆棧和基片組成。
為此,通過定製 HBM 內存子系統(包括堆棧本身),Marvell 正在推進雲數據中心基礎設施的定製化。Marvell 正在與主要的 HBM 製造商合作,以實施這種新架構並滿足雲數據中心運營商的需求。
Marvell 定製 HBM 計算架構通過序列化和加速其內部 AI 計算加速器硅片與 HBM 基片之間的 I/O 接口來增強 XPU。與標準 HBM 接口相比,這可提高性能並將接口功耗降低高達 70%。優化的接口還減少了每個芯片所需的硅片空間,從而允許將 HBM支持邏輯集成到基片上。這些節省的空間(高達 25%)可用於增強計算能力、添加新功能,並支持高達 33% 的 HBM 堆棧,從而增加每個 XPU 的內存容量。這些改進提高了 XPU 的性能和能效,同時降低了雲運營商的 TCO。
在Marvell看來,這種轉變是定製 XPU 總體趨勢的一部分,將對 XPU 的性能、功耗和設計產生根本而深遠的影響。HBM 於 2013 年發明,由垂直堆疊的高速 DRAM 組成,這些 DRAM 位於一個稱為 HBM 基片的芯片上,該芯片控制 I/O 接口並管理系統。基片和 DRAM 芯片通過金屬凸塊連接。
垂直堆疊有效地讓芯片設計人員能夠增加靠近處理器的內存量,從而提高性能。幾年前,最先進的加速器包含80GB 的 HBM 2。明年,最高水準將達到 288GB。
儘管如此,對更大內存的需求仍將持續,這給設計師帶來了節省空間、功耗和成本的壓力。HBM 目前可佔 XPU 內部可用空間的 25%,佔總成本的 40% 。HBM 4是當前的尖端標準,具有由 32 個 64 位通道組成的 I/O - 巨大的尺寸已經使芯片封裝的某些方面變得極其複雜。
Marvell 定製 HBM 計算架構涉及優化基礎 HBM 芯片及其接口,目前圍繞 JEDEC 標準設計,其解決方案經過獨特設計,以與主機 AI 計算芯片的設計、特性和性能目標相吻合。
想象一下,超大規模企業想要一個 AI 推理 XPU,用於擠進密集商業區或城市走廊的邊緣數據中心。成本和功耗將處於高位,而絕對計算性能可能不那麼重要。定製 HBM 解決方案可能涉及減小 AI 計算芯片的尺寸,以節省芯片尺寸和功耗,而其他考慮則高於其他考慮。
另一方面,為大規模 AI 訓練集羣提供動力的 XPU 的 HBM 子系統可能會針對容量和高帶寬進行調整。在這種情況下,重點可能是減小 I/O 接口的大小。減小 I/O 大小會在芯片側面所謂的“beachfront ”上為更多接口騰出空間,從而提高總帶寬。
高性能XPU扮演重要角色
在推出定製的HBM架構之後,Marvell帶來了全新的XPU。
Marvell表示,新的定製HBM架構使客户能夠將 CPO 無縫集成到其下一代定製 XPU 中,並將其 AI 服務器的規模從目前使用銅互連的機架內數十個 XPU 擴展到使用 CPO 的多個機架中的數百個 XPU,從而提高 AI 服務器的性能。創新的架構使雲超大規模提供商能夠開發定製 XPU,以實現更高的帶寬密度,並在單個 AI 服務器內提供更長距離的 XPU 到 XPU 連接,同時具有最佳延遲和功率效率。該架構現已可供 Marvell 客户的下一代定製 XPU 設計使用。
Marvell 定製 AI 加速器架構使用高速 SerDes、芯片到芯片接口和先進封裝技術,將 XPU 計算硅片、HBM 和其他芯片與 Marvell 3D SiPho 引擎整合在同一基板上。這種方法無需電信號離開 XPU 封裝進入銅纜或穿過印刷電路板。藉助集成光學器件,XPU 之間的連接可以實現更快的數據傳輸速率和比電纜長 100 倍的距離。這可以在 AI 服務器內實現跨多個機架的擴展連接,並具有最佳延遲和功耗。
CPO 技術將光學元件直接集成在單個封裝內,從而最大限度地縮短了電氣路徑長度。這種緊密耦合可顯著減少信號損耗、增強高速信號完整性並最大限度地減少延遲。CPO 利用高帶寬硅光子光學引擎來提高數據吞吐量,與傳統銅連接相比,硅光子光學引擎可提供更高的數據傳輸速率,並且不易受到電磁干擾。這種集成還通過減少對高功率電氣驅動器、中繼器和重定時器的需求來提高電源效率。通過實現更長距離和更高密度的 XPU 到 XPU 連接,CPO 技術促進了高性能、高容量擴展 AI 服務器的開發,從而優化了下一代加速基礎設施的計算性能和功耗。
業界首款 Marvell 3D SiPho 引擎在 OFC 2024 上首次亮相,支持 200Gbps 電氣和光學接口,是將 CPO 整合到 XPU 中的基本構建模塊。Marvell 6.4T 3D SiPho 引擎是一款高度集成的光學引擎,具有 32 個 200G 電氣和光學接口通道、數百個組件(例如調製器、光電探測器、調製器驅動器、跨阻放大器、微控制器)以及大量其他無源組件,這些組件集成在一個統一的設備中,與具有 100G 電氣和光學接口的同類設備相比,可提供 2 倍的帶寬、2 倍的輸入/輸出帶寬密度和 30% 的每比特功耗降低。多家客户正在評估該技術,以將其集成到其下一代解決方案中。
八年多來,Marvell 為連續幾代高性能、低功耗的COLORZ 數據中心互連光學模塊提供了硅光子技術。該技術已通過眾多領先的超大規模數據中心的認證並投入大批量生產,以滿足其不斷增長的數據中心到數據中心的帶寬需求。Marvell 硅光子器件的現場運行時間已超過 100 億小時。
Marvell 一直是改變互連技術的先驅,致力於提高加速基礎設施的性能、可擴展性和經濟性。Marvell 互連產品組合包括用於定製 XPU 內高性能通信的高性能 SerDes 和 die-to-die技術 IP、用於在同一板上實現 CPU 和 XPU 之間高效短距離連接的PCIe 重定時器、用於克服內存挑戰的突破性CXL 設備、用於機架內短距離連接的有源電纜和有源光纜數字信號處理器、用於數據中心內機架到機架連接的不斷擴展的PAM 光學 DSP以及用於連接相距數千公里的數據中心的相干 DSP 和數據中心互連模塊。
寫在最後
正如很多文章報道,Marvell 和 Broadcom都是雲超大規模企業的主要定製 ASIC 芯片提供商。例如,亞馬遜多年來一直與 Marvell 合作開發 AWS Trainium,這是其用於 AI 訓練和推理工作負載的內部 AI 芯片。AWS Trainium2 已被亞馬遜和其他合作伙伴採用。在亞馬遜最近的財報電話會議上,管理層透露,亞馬遜與 Anthropic 合作建立了 Project Rainier,這是一個用於 AI 工作負載的 Trainium 2 超級服務器集羣。亞馬遜計劃在今年晚些時候推出其下一代 Trainium 3 芯片。
因此,上述XPU的新突破對Marvell 來説很重要,因為他們的 ASIC 技術可以繼續支持超大規模企業和 AI 模型公司開發自己的 GPU/XPU 芯片,為 Nvidia和 AMD提供具有成本效益的替代方案。
在 2025 財年第三季度財報電話會議上,Marvell 指出,其與 Hyperscalers 的定製硅片合作伙伴關係的產量增長強於預期。管理層對未來定製硅片的增長充滿信心。換而言之,在定製硅片需求增加的推動下,Marvell 的增長將在不久的將來加速。