硅光新貴,各出奇招_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。07-07 19:42
伴隨着海量數據時代的來臨,數據傳輸難題將越來越大,行業對高速高密、低功耗和低成本網絡解決方案的需求大幅提升,而作為一項突破性技術的硅光,逐步成為眾人的焦點,每隔幾個月,似乎就會有另一家初創公司出現,承諾在更長的距離上提供大帶寬,同時使用比銅互連更少的功率。
據知名市場調研機構LightCounting預測——到2022年,硅光子技術將在每秒峯值速度、能耗、成本方面全面超越傳統光模塊預測;而到2024年,硅光光模塊市場市值將達65億美金,佔比高達60%。換句話説,拋開現有的電子模塊不談,未來光模塊將大量被硅光技術取代。
對於目前尚在積累發展硅光互聯領域來説,競爭已經逐步變得激烈了起來。關於硅光技術的下一步路線圖,可以參考文章《硅光的下一代技術路線圖》,在本文中,我們只是統計一些硅光新貴的一些想法。
Ayar Labs TeraPHY
2020年12月15日,初創公司 Ayar Labs 展示了其首款可用的 TeraPHY,這是一種光學 I/O 小芯片,採用 GlobalFoundries 的 45nm 硅光子工藝製造。
在應用領域,TeraPHY 小芯片可以與以太網交換芯片、通用處理器 (CPU)、圖形處理單元 (GPU)、AI 處理器和現場可編程門陣列 (FPGA) 等設備共同封裝。Ayar Labs 表示,它正在努力將光學器件添加到以太網交換芯片中,這是與共封裝光學器件最相關的應用,但其重點是人工智能、高性能計算和航空航天應用。
與其他一些公司不同,Ayar Labs專注於“光學驅動的計算”(optically enabled computing),特別是解決依賴電子主機ASIC的傳統計算機架構日益面臨的帶寬-距離瓶頸,而不是光學計算(optical computing)。
Ayar Labs表示,隨着計算需求的迅速增長,這些ASIC一直試圖在不同的包之間轉移越來越多的帶寬。而且,雖然數據中心內的許多通信都是在光域進行的,但大部分包到包(package-to-package)的通信仍然是通過銅互連進行的。這就產生了一個權衡:電域中的銅越多,I/O距離越大,芯片之間的帶寬就越小,而延遲和功率需求就足夠低。
Ayar Labs則希望通過“一種新的光子集成、技術和產品”打破這一瓶頸,真正推動電-光之間的轉換,並且儘可能接近主核的ASIC。據悉,這種產品的其中一個元素是一種名為TeraPHY的光學I/O芯粒(chiplet)。這種芯粒被設計成倒裝芯片,與ASIC(如英偉達GPU)連接在同一基板上,並直接放在ASIC旁邊。攜帶數據的光通過一條單模光纖連接帶輸入(或輸出)到單晶片,其中微環諧振器系統將光信號解碼為電信號。
英特爾和 Ayar Labs 此前詳細介紹了與兩個 TeraPHY 共同封裝的 Stratix 10 FPGA,用於相控陣雷達設計,作為美國政府支持的 DARPA PIPES 和電子復興計劃的一部分。而向 FPGA 添加光學 I/O 小芯片適合多種航空航天應用,包括航空電子設備、衞星和電子戰。
Ayar Labs所展示的 TeraPHY 使用 8 個發送器-接收器對,每對支持 8 個以 16、25 或 32 吉比特每秒 (Gbps) 速度運行的通道,以實現高達 2.048 太比特的光學 I/O。該芯片可以使用串行電氣接口或英特爾的高級接口總線 (AIB),這是一種使用較慢 2Gbps 通道的寬總線設計。最新的 TeraPHY 使用 32Gbps 不歸零 (NRZ) 串行接口,Saleh 表示該公司正在開發 56Gbps 版本。
此外,該公司還展示了 4 級脈衝幅度調製 (PAM-4) 技術,但許多應用需要儘可能低的延遲鏈路。“PAM-4 為您提供了更高的數據速率,但它伴隨着前向糾錯的負擔,”Saleh 説。使用 PAM-4 和前向糾錯時,延遲為數百納秒 (ns),而使用 NRZ 鏈路時延遲為 5 納秒。
Ayar Labs 的下一個基於 AIB 的並行 I/O TeraPHY 設計將使用英特爾的 AIB 1.0 規範,並將使用 16 個單元,每個單元具有 80 個 2Gbps 通道,以實現 2.5Tbps 電氣接口。相比之下,與 Stratix 10 FPGA 一起使用的 TeraPHY 有 24 個 AIB 單元,每個單元有 20 個 2Gbps 通道,總體電氣帶寬為 960 GB,而其光學 I/O 為 2.56Tbps,因為使用了 10 個發送-接收對。
光帶寬故意高於電帶寬。首先,並非芯片上的所有發送-接收宏都需要使用。其次,該小芯片具有一個縱橫開關,允許一對多連接,以便可以在多個光學接口上發送電通道,反之亦然。
Ayar Labs指出,該芯片的重點是利用主機SoC(芯片系統)的高帶寬,以儘可能快的速度將其轉換為光域,然後以更加可擴展的方式以低能量長距離移動大量帶寬。
微型諧振器架構所實現的小型化和集成化水平使光到電/電到光的轉換髮生在“一個更密集的起點,最終變得更為節能。而傳統產品(如可插拔收發器),則是針對更成熟的光通信市場。
Ayar Labs系統的另一個核心組件是該公司的SuperNova激光光源,它位於不同的芯片上,可以產生16個波長的光,傳輸到16根光纖(每根光纖本身可以攜帶16個波長)。這將光源從ASIC封裝中分離出來,該公司認為這將提供更靈活的跨應用部署,並更容易在現場更換部件。
Lightmatter Passage
2020年10月27日,Lightmatter宣佈推出Lightmatter Passage——一種晶圓級可編程光子互連,允許異構芯片陣列(CPU、GPU、內存、加速器)相互通信以前所未有的速度。Passage 實現了片上機架互連的現實,提供了芯片之間完全可重新配置的連接拓撲,從而降低了構建異構計算系統的成本和複雜性。
Passage 的獨特設計將 40 個可切換的集成光子通道封裝到傳統上僅支持一根光纖的同一空間中。Passage 是多年互連路線圖中的第一個性能不斷提高的產品,可在 8 英寸 x 8 英寸的 48 個芯片陣列上實現 1Tbps 動態可重新配置互連,最大通信延遲為 5 納秒。其結果是以更低的能量實現更高帶寬的通信,並且無需昂貴的光纖到芯片封裝過程。這種架構方法提供了一條經過驗證的路徑,可提供 100Tbps 帶寬的芯片間通信,是當前可用的最先進光子互連解決方案的 100 倍。
在宣佈 Passage 之前,Lightmatter 於 2020 年 8 月推出了其人工智能 (AI) 光子計算機芯片:一種通用人工智能推理加速器,利用光來計算和傳輸數據,從而減少熱量和能源消耗並提高計算性能數量級。Passage 能夠將該芯片與多種其他芯片集成,以實現單晶圓級高速計算系統。該系統直接滿足了對更快、更節能(超級)計算機的迫切需求,能夠支持下一代人工智能推理和訓練工作負載。
Lightmatter希望通過 Passage 顛覆先進的封裝遊戲。Passage 連接到光學中介層上的 48 個客户芯片。Passage 建立在GlobalFoundries Fotonix 45CLO 工藝技術之上。它旨在以非常高的帶寬和性能連接許多芯片。這種optical interposer打破了帶寬限制,在每個tile之間提供每秒 768 太比特,並且可以以每秒 128 太比特擴展到多個interposers,這是傳統封裝無法達到的能力和規模水平。
Lightmatter 稱之為 Gen 1 的可插拔光學器件多年來一直用於連接數據中心內的交換機,由於英特爾和Ayar Labs等公司,第 2 代和第 3 代光學器件(將光學器件放在同一個封裝上或直接連接)開始進入網絡交換機和計算領域。Lightmatter 想通過 Passage 直接跳到第 4 代和第 5 代。
英特爾和 Ayar Labs 等標準聯合封裝光學器件的規模比 Lightmatter 使用的光學中介層解決方案低一個數量級。其互連密度高出 40 倍,因為單個芯片中只能插入大約 200 根光纖。而 Passage 具有可動態配置的結構,互連是完全靜態的,這種光中介層可以在芯片之間進行交換和路由,整個互連可以在 1ms 內重新配置。
Lightmatter 表示,他們可以支持所有拓撲,例如 all to all、1D ring、Torus、Spine 和 Leaf 等等。Passage 的交換和路由在 48 芯片陣列上的任何芯片與任何其他芯片之間的最大延遲為 2ns,而切換是通過使用環形諧振器調製顏色並使用馬赫-曾德干涉儀來引導它們來實現的。
Lightmatter 的光子晶圓級中介層具有 A0 硅,並聲稱每個站點使用的功率不到 50 瓦。每個站點有 8 個混合激光器驅動 32 個通道;每個通道運行 32Gbps NRZ。
Lightmatter 的晶圓級硅光子芯片主要採用硅基製造技術;它有許多相同的限制。即光刻工具的標線限制。GlobalFoundries 和 Lightmatter 通過縫合波導解決了這個問題。納米光子波導的光罩間連接在每個光罩交叉處僅具有 0.004 dB 的損耗。波導損耗為 0.5 dB/cm,每個 Mach-Zehnder 干涉儀損耗為 0.08 dB。每次交叉也有 0.028 dB 的損耗。
Lightmatter 表示,藉助 UCIe,他們可以運行最高規格的 32Gbps chiplet到中介層互連。如果使用直接 SERDES,他們相信它們可以以 112G 的速度運行。客户 ASIC 被 3D 封裝在中介層之上。然後 OSAT 將組裝這個最終產品。它可以有多種變體,從 48 個芯片到只有 8 個芯片的更小的interposer。passage封裝還必須為封裝在頂部的芯片供電。它通過使用 TSV 為每個tile提供高達 700W 的功率來做到這一點。在這個功率級別需要水冷,但如果客户 ASIC 消耗較少,他們可以使用空氣冷卻。
Lightmatter 還舉了一個分解內存設計和多租户架構的例子。他們開始他們的 interposer可以支持任何協議,包括 CXL。interposer頂部的客户 ASIC 可以通過重新配置網絡實現氣隙,因此在特定芯片之間傳遞數據是不可能的。最大的問題是產品是否會出現以及何時會出現。這可能只是vaporware,也可能是高端領先的分類服務器設計的未來。Lightmatter 必須吸引其他公司為這個平台製造芯片。這些公司必須將其昂貴的開發信任與未經證實的合作伙伴。
Lightelligence Hummingbird
6 月 29 日, Lightelligence推出了全球首款專為以下領域設計的片上光網絡 (oNOC) 處理器 Hummingbird,其採用先進的垂直堆疊封裝技術,將光子芯片和電子芯片集成到一個封裝中,作為數據中心和其他高性能應用的通信網絡。
Hummingbird 是 Lightelligence 光子計算產品組合中的第二款產品。其光子算術計算引擎 (PACE) 平台於 2021 年末發佈,利用定製 3D 封裝和無縫協同設計,將光子學和電子學完全集成在一個小外形尺寸中。
Hummingbird 是利用 Lightelligence 的 oNOC 平台的產品系列中的第一個產品,該平台通過硅光子學實現創新的互連拓撲,從而顯著提高了計算性能。其波導以光速傳播信號,並利用到 64 核特定領域 AI 處理器芯片上每個核心的全對全數據廣播網絡,使 Hummingbird 在延遲和功耗降低方面比傳統數字互連解決方案具有顯着優勢。
計算擴展挑戰激發了光學互連解決方案的創建。與數字網絡不同,Hummingbird 的 oNOC 技術通過啓用原本無法實現的互連拓撲來提高密度擴展。
在 oNOC 中,功耗和延遲幾乎不受距離影響,這使得該技術非常適合開發不依賴最近鄰居通信的新的、更強大的拓撲。像蜂鳥這樣的 oNOC 拓撲由於更高效的通信,即使在單個電子 IC 配置中也能實現更高的計算能力利用率。藉助 oNOC,將工作負載映射到硬件變得更加容易,併為計算任務選擇正確的拓撲提供了更大的自由度。
在 Hummingbird 中,Lightelligence 實施了跨 64 個核心的低延遲光學全對全廣播網絡。Hummingbird 擁有 64 個發射器和 512 個接收器,提供了實現各種密集光網絡拓撲的框架。
Hummingbird 的電子和光子 IC 共同封裝並集成到 PCIe 外形尺寸中,可安裝在行業標準服務器中。與 Lightelligence 軟件開發套件 (SDK) 相結合,可以優化機器學習和人工智能工作負載,以充分利用 oNOC。oNOC 和 Hummingbird IP 還可以針對其他獨特的工作負載和應用程序進行定製。
據介紹,未來幾代的Hummingbird將採用十字線縫合(reticle-stitching)來支持小芯片架構,以實現更好的可擴展性、提高能源效率並進一步減少瓶頸。
Celestial Photonic Fabric
Celestial AI在經歷了一年多的沉寂後,它又重新崛起,宣佈了一種新型的硅光子互連,涵蓋了從芯片到芯片的整個領域。芯片、封裝到封裝以及節點到節點的連接。
當去年年初首次出現時,CelestialAI專注於構建名為 Orion 的人工智能加速器,該加速器將採用光學互連技術。從那時起,該公司的重點已轉向向芯片製造商授權其光子結構。
説到底層技術,Celestial Photonic Fabric 基於硅光子學和先進 CMOS 技術的結合,與 Broadcom 合作設計,採用台積電的 4 納米和 5 納米工藝技術。
最先進的互連形式涉及在光學中介層上堆疊第三方 ASIC 或 SoC,或使用該公司的光學多芯片互連橋 (OMIB) 封裝技術在芯片之間傳輸數據。對我們來説,這聽起來很像 Lightmatter 在 Passage 上所做的事情,我們不久前看過,但 Lazovsky 堅持認為 Celestial 的技術效率要高几個數量級,並且可以輕鬆支持數百瓦的熱量。事實是否如此,我們還需拭目以待。
對於初始設計,Celestial 的 Photonic Fabric 使用 56 Gb/秒 SerDes。該公司表示,每個節點有四個端口,每個端口有四個通道,每平方毫米可以達到約 1.8 Tb/秒。Lazovsky 聲稱:“如果您想互連到四元組(一個模塊中的四個 HBM 堆棧),我們可以輕鬆匹配完整的 HBM3 帶寬。”
對於其第二代光子結構,Celestial 正在轉向 112 Gb/秒 SerDes,並將通道數量從 4 個增加到 8 個,有效地將帶寬增加四倍,達到每 mm 2 7.2 Tb/秒。
要提取 Celestial 的光子結構提供的最大帶寬,意味着在設計芯片時要考慮到該公司的光學中介層或 OMIB。根據 Lazovsky 的説法,這本質上需要用自己的技術替換現有的 PHY。儘管如此,互連並不依賴於專有協議(儘管它可以與這些協議配合使用),而是在設計時考慮了 Compute Express Link (CXL)、Universal Chiplet Interconnect Express (UCIe)、PCIe 和 JEDEC HBM。
該公司承認,技術“看起來與 Ayar Labs 的TeraPHY非常相似”,Photonic Fabric 也可以部署為小芯片以及 PCI-Express 附加卡。PCI-Express 可以説是最實用的,因為它不需要芯片製造商重新架構其芯片來支持 Celestial 的內插器,也不需要依賴尚處於萌芽階段的UCIe 協議來實現小芯片到小芯片的通信。
PCI-Express 的缺點是它是一個非常大的瓶頸。雖然 Celestial 的光學器件能夠提供海量帶寬,但 X16 PCI-Express 5.0 接口的每個方向的最大速度約為 64 GB/秒。如果我們不得不猜測,這個選項確實存在作為概念證明,讓客户熟悉這項技術。
該公司聲稱,該小芯片架構能夠提供更高的帶寬,但仍然受到約 14.4 Tb/秒的 UCIe 接口的瓶頸。我們會注意到,UCIe 在準備好進入黃金時段之前還有很長的路要走,但聽起來小芯片也可以與芯片製造商的專有結構一起使用。
當然,此類光學互連面臨的挑戰並沒有改變。除非您對帶寬的迫切需求遠遠超出了使用銅線所能達到的範圍,否則有大量現有且經過充分測試的技術可用於將小芯片物理拼接在一起。台積電的 CoWoS 封裝技術只是一個例子。
然而,在更長的距離上,甚至在封裝之間,光學器件開始變得更有意義,特別是在帶寬敏感的 HPC 和麪向 AI/ML 的工作負載中。這是 Celestial 看到的光子結構的首批實際用例之一。
該公司表示,由於互連支持 Compute Express Link (CXL),因此它可以用於共享 HBM3 內存。這個概念類似於我們過去詳細討論過的CXL 內存池。這個想法是,多個主機可以像連接到共享存儲服務器一樣連接到內存設備。由於 HBM 具有驚人的內存帶寬(高達 819 GB/秒),它最多可以放置在距離芯片幾毫米的地方。
對於那些訓練大型語言模型的人來説,這可能會有點痛苦,因為在 Nvidia 的 H100 或 AMD 的 MI250X 等加速器上發現的內存與計算的比例是固定的。為了獲得適量的其中一項(例如內存),可能意味着要為另一項付出比您實際需要更多的費用。
Celestial 聲稱,如果正確實施,其 Photonic Fabric 可以實現足夠的帶寬,不僅可以遠距離支持 HBM3,而且最終可以在多個加速器之間池化內存。
因此,也許這就是殺手級應用程序,它不僅將使光學互連無處不在,而且還將可組合基礎設施帶入主流。