Chiplet最強科普_風聞

半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2020-03-06 15:28

2020-03-06

來源：內容由公眾號半導體行業觀察（ID:icbank）原創，謝謝！

現在人們普遍認為，以摩爾定律的預期速率進行器件縮放，以及相應地，完全通過改進通用CPU來實現功率/性能縮放的時代將結束。摩爾定律的終結將增加對特定領域加速器（DSA）的需求和使用，以滿足雲基礎設施、網絡基礎設施和物聯網/無線邊緣等應用對芯片功率和性能要求。作為一個重要的數據點，近年來的HotChips會議展示了許多面向基礎設施應用的領域特定SoC，包括幾個神經網絡加速器、雲處理、安全處理和交換結構。

異構集成-Chiplet

DSA通常是作為單片IC開發和實現的。在單片ASIC（專用集成電路）中，加速器中的所有元件都是在一個硅片上用一種工藝設計和製造的。隨着工藝幾何圖形的縮小，開發ASIC的成本變得高得令人望而卻步，例如，在7nm工藝節點上的成本超過2.5億美元[14]。在如今的發展過程中，只有非常大的市場容量才能證明定製ASIC的發展是合理的。

與一般用途的CPU相比，DSA通常服務於更小的市場。ASIC設計師試圖通過整合大量第三方知識產權（IP）核來降低設計成本。第二種控制成本的方法是選擇一個更經濟的工藝節點，比如16nm，而不是7nm甚至22nm。在太老的節點上，如果要實現應用所需的全部功能，可能會使硅片的面積太大而無法經濟地製造。

異構集成系統提供了一種新的設計方案。在這些系統中，產品中的不同組件在獨立的裸片上設計和實現，稱為chiplet。不同的裸片可以使用不同的工藝節點製造，甚至可以由不同的供應商提供。第三方chiplet可以減少設計時間和成本。但這種方法的可行性常常受到片間互連的性能和可用性的限制。直到最近，片間互連的功耗和性能比片內互連要糟糕3-4個數量級。這需要強制進行高帶寬訪問的資源，比如外部內存接口和主機接口不能移出芯片。已經開發出了幾種新技術從簡單到高度並行的高速串行接口，來改進片間連接的電源效率。新的封裝技術已被開發，來支持這些不同接口的多芯片封裝。

chiplet技術的發展引起了大型商業公司和政府研究機構的關注。Intel、AMD、Intel和Xilinx在多chiplet系統上處理完整的堆棧連接、邏輯數據傳輸和應用程序執行。他們的工作主要使用專有協議，並且是封閉系統，整個異構系統由單個供應商控制。而云計算和網絡運營商的能力、性能和成本要求將根據加速器在網絡中的部署位置而有所不同。運營商也更願意通過跨多個供應商組合一流的解決方案來組裝定製化的加速器。

目前的標準化工作在很大程度上侷限於片間通信的PHY（物理層）協議。最著名的標準是基於開放式高帶寬存儲器（HBM）接口的高性能3D堆疊存儲器。美國國防部高級研究計劃局（DARPA）的計劃[18]專注於創建和標準化chiplet之間的開放連接協議。一個限制是，該計劃側重於支持對國防工業重要但可能與商業發展無關的工藝節點。這將協議限制在與接口的模擬性能有一定限制的工藝上。

DSA的另外兩個屬性必須在多chiplet架構中解決。首先是內存管理。DSA通常連接到主處理器，完整的應用程序流是DSA本身和主處理器上的數據處理過程的有機結合。操作協同是通過協調主處理器和DSA之間的內存狀態來實現的。一般是通過內存一致性協議或由程序員管理的主處理器和DSA之間的數據傳輸來實現的。另一種方式是通過主機上的操作系統控制和管理加速器。

在本文，我們呼籲開發開放體系結構的標準，並開發可以作為開放體系結構模板和初始平台的原型產品。我們（開放領域特定架構(ODSA)工作組）提出了一種低成本、高性能的開放加速器架構，以解決開發DSA的全部需求，包括以下組件:

支持chiplet組之間多種形式的物理通信基於消息的協議，用於chiplet之間的一致性和批量數據移動主處理器集成軟件，用於將加速器與主處理器集成為該方法提供chiplet的行業聯盟

我們還建議使用以下組件提供平台原型:

有機基質上的低成本多chiplet 封裝一種實現所有其他組件互聯衚衕的基於消息的通信的網絡化chiplet一個遠程SerDeschiplet一個RISC CPUchiplet多芯片封裝用於網絡加速的主處理器集成軟件

圖1將ODSA工作組與工業界和政府最近的努力成果chiplet進行了對比。具體來説，相對於DARPA計劃，ODSA側重於關注技術棧之上的內存管理協議。相對於來自大公司的產品，ODSA提倡一種開放的體系結構，使得來自多個供應商的產品可以互操作。綜合起來，這些特性將降低在廣泛應用中開發和部署高能效、高性能加速器所需的成本和時間。

圖1:ODSA協議棧和焦點區域

開放式體系結構將使供應商能夠開發同類最佳的DSA：

開發人員在開發產品時，可以將異構的同類最佳組件結合起來。合併來自多個供應商的裸片。此外，對於性能較低的零件，開發人員甚至可以重複使用當前以封裝IC形式出售的裸片。該架構將通過在廉價的基底上採用多芯片互連的多種低功耗方法，以低單位成本提供高性能、多兆比特互連。該架構將通過支持大量的硬件和軟件重用來降低開發成本。

傳統意義上講，加速器被實現為單片的ASIC，其中會包括一個裸片上的所有功能，這些功能通常與系統中的其他芯片連接，具有中、遠程SerDes接口。這允許在子塊之間的通信在功耗和佔用硅片面積上達到最優。

ASIC實現趨勢

傳統意義上，IC設計者在開發下一代芯片時有兩種選擇。開發新芯片的主要方法是在下一個可用的工藝節點中利用增加的帶寬、增加的處理能力（頻率、處理核心）和其他特性更新。第二種方法是在同一個工藝節點中開發其他新特徵，以減少新工藝和新工具的投資。

在摩爾定律的幫助下，設計者通常可以在下一個工藝節點將系統中的兩個獨立的ASIC組合成一個單片設計，從而提高頻率。當多個部件組合成一個單一的器件導致接口電源被移除時，這是移動到較小工藝的的動態功耗改進之外的額外好處。不幸的是，隨着先進技術向越來越精細的功能轉移，以實現面積和功率的擴展，實現這些器件的成本急劇上升。圖2顯示了隨着設計遷移到高級工藝節點，開發成本的快速增長。對於許多市場和應用空間有限的加速器器件來説，這種額外的成本是不可接受的。

為了攤薄開發成本，ASIC的設計比實際需要的更大，因為它們需要被設計為滿足各種應用所需功能的超集。不幸的是，功能的超集降低了工藝進步帶來的好處，導致更復雜的芯片規格從而需要更多的精力來設計，佈局，尤其是要開發出與更新的較小的工藝相匹配或超過增加的掩模和工藝成本的軟件。即使這些芯片變得越來越複雜以降低投資成本，但由於更復雜的光刻和工藝（雙，三次圖案轉移，EUV等），每個晶體管的成本下降也在放緩甚至停滯。

有了這些趨勢，一個明顯的選擇似乎是在舊的工藝節點上構造非常大的單裸片。更新同一進程節點中的器件也會帶來挑戰。通常，上一節中所示的較小裸片的工藝幾何結構和良率效益使其無法或不可能將兩種不同的設計組合成一個芯片，並滿足成本或分劃線限制。雖然消除接口可以真正提高接口功率，但設備的總體成本增加使這一好處難以實現。

圖2:ASIC開發成本和晶體管的成本效率

此外，大型裸片的缺陷、光刻工具中使用的分劃板的侷限性以及與層壓板連接的可靠大型裸片的侷限性也會影響成本。圖3比較了兩個裸片，一個10x10，另一個是20x20。只要使用非常好的d0（0.1），每300毫米晶圓的中，四個10x10裸片良率會比20x20裸片多29%。

圖3:裸片尺寸對良率的影響

基於FPGA的設計是加速器的另一個實現方案，且開發成本非常低。許多加速器開發人員的應用程序服務於一個有限的市場，即使他們能夠使用處理器和FPGA實現所需功能並具備顯著成本和功率優勢，他們也無法證明這筆費用的合理性。圖4顯示了使用相同工藝節點的ASIC實現相對於FPGA在面積和功耗方面有顯著優勢。

圖4:ASIC與FPGA中相同內容的比較顯示了顯著的優勢

Chiplet概述

在本文討論的開放式體系結構中，我們探索了第三種途徑，使用低功耗接口（如USR、束線（BoW）或新興的112G SiP標準）實現多組件裸片的異構集成。通過在不同接口上分層公共協議，可以利用一種基於“構建塊”的通用方法，通過簡單地改變多芯片模塊（MCM）的物料清單（BoM），在基板上創建新的系統。

一些組件塊（例如長距離SerDes塊或電-光接口）可以在需要的地方遷移更高級的工藝節點，但是其他組件塊可能保留在具有成本效益的節點中，以減少總體投資。如下圖5所示，雖然沒有達到技術縮減的相同面積和功率優勢，但第三條路徑通過顯著減少接口面積和功耗，在更具成本效益的節點中比單片集成提供了相當大的面積和功率節省。雖然多芯片系統通常比單個芯片的成本更高，但這些面積和功耗節省可以在一定程度上抵消增量投資。

在這個圖表中，基本投資被顯示為原始設計的參考點，原始設計需要通過組合組件和通過集成或將更大的設計推送到新技術中來添加新功能來進行更新。集成到單個基板上可提供工藝縮減的帶來的許多好處，而投資成本卻大大降低。

基板上的集成系統還大大節省了電路板空間和走線延遲，節省了大量系統成本，通常可以抵消設計和集成MCM所增加的成本。

圖5:比較(多芯片)集成與進程節點收縮

互連和外部接口

開發物理分解（異構）MCM解決方案的主要挑戰之一是在裸片之間移動數據，同時保持具有競爭力的成本和可製造性。雖然高密度、低成本的封裝解決方案方面在繼續取得巨大進展，但在選擇與當今可用於大批量製造的封裝解決方案兼容的互連技術方面仍然具有顯著優勢。此外，使用經過驗證的封裝解決方案可以提高與外部互連(如PCI Express和以太網接口)的兼容性，這些接口可能是這些SiP解決方案所需要的。

多年來，人們一直在尋找一種“真正的互連”，以便在單個MCM中實現從裸片到裸片的通信。挑戰在於希望優化六個往往相互競爭但相互關聯的因素:

1.封裝解決方案成本

2.每單位帶寬裸片面積(平方毫米每千兆每秒)

3.每比特功率

4.帶寬的可伸縮性

5. 系統級集成和使用的複雜性

6. 可在任何半導體工藝節點中實現

理想的解決方案是一種可無限擴展(在細粒度分辨率下)、低功耗、高效率、對編程模型完全透明、可構建在低成本硅和封裝技術中的互連技術。一般來説，有三類技術服務於這個空間:

傳統中長距離SerDes不同範圍的較短SerDes-XSR或SiP SerDes，USR Femto SerDes並行接口-高帶寬內存（HBM），高級接口總線（AIB），“電線束”（BoW）接口

我們簡要回顧了每一種die-to-die的通信技術。

傳統SerDes

傳統的中長距離（MR和LR）SerDes（如PCI-Express、以太網等）作為die-to-die互連解決方案具有一些關鍵優勢。這些SerDes接口傾向於以合理的速度/功率優化點在硅工藝節點的廣泛選擇中可用。為了支持傳統的操作模式，大多數標準都在設計上包含了帶寬擴展的概念。由於這些接口被廣泛使用，因此集成到裸片和系統編程模型中往往是非常耐用和易於理解的。集成和使用這些接口所需的封裝技術是廣泛可用和廉價的。

然而，它們也存在一些明顯的缺陷。由於這些實現往往是一般化的，並且集中於物理上大型系統(例如服務器或企業路由器)中的通信，因此與專用的die-to-die解決方案相比，它們的能量效率偏低且佔用的硅片面積過大。模型雖然很好理解，但它的目的是在物理上和邏輯上不同的設備之間進行通信，因此往往包含固定的流控制和大量的系統開銷，這些開銷會增加延遲和複雜性，這在SiP這種理想通信場景中沒有太大必要。

XSR/SiP

XSR/SiP是一種相對較新的SerDes接口，它以50Gb/s的速度node1開始引入，並且以100Gb/s的速度尋找未來的解決方案時在業界受到了更多的關注。XSR/SiP SerDes代表了一個高度優化的、通常非常高速的串行接口，它是專門為die-to-die通信而構建的。基於傳統的SerDes體系結構(集成了時鐘數據恢復電路)，但是具有嚴格限制的插入損耗預算，這些XSR/SiP鏈路具有較高的能效和較小的硅片面積，允許在SiP內實現極高帶寬的鏈接。這些往往被視為簡單的“比特管”系統可以抽象為非常靈活的編程模型,但由於需要將前向糾錯（FEC）應用於以優化功耗和麪積後的100Gb/s速度的接口，因此可以引入顯著的延遲。

與其他解決方案一樣，基於XSR/SiP SerDes的互連也存在一些負面影響。為了在非常高的速度下支持良好的信號完整性，需要更高性能（因此更昂貴）的封裝基板材料來支持大規模集成。裸片之間的總接口帶寬可以非常有效地擴展，但在50或100Gb/s運行所需的電路開銷要求最小接口帶寬和增加帶寬的單位為幾百Gb/s，以實現功率和麪積效率目標。最後，先進的硅工藝節點通常需要支持這些SerDE的設計，限制了系統設計者用正確的工藝實現。

USR Femto SerDes

USR-Femto-SerDes進一步針對特定的die-to-die通信進行了優化，採用了增強的信令方案（時鐘轉發、高級編碼、多比特/多線傳輸等），以提供極為節能的解決方案。通過使用現有的封裝技術，這些接口支持每條線的高數據速率，可以提供帶寬和成本的良好平衡。雖然還不能達到100Gb/s XSR/SiP解決方案所能達到的絕對接口帶寬，但USR設計可以提供相當高的功率效率。與XSR/SIP SerDes一樣，系統集成模型可以是靈活且非常輕量級的，但是FEC可能需要以更高的數據速率應用以支持可接受的數據傳輸完整性。此外，USR串行接口通常是自定義的“強化”宏，通常涉及專有編碼方案，這意味着可能需要對特定的過程技術進行自定義設計才能實現它們。與傳統技術的互操作性和兼容性也可能帶來挑戰。

BoW

實現die-to-die接口的最簡單解決方案是一個較大位寬由時鐘驅動的並行總線，類似於用於DDR的內存接口。從系統和軟件的角度來看，這些設計靈活、可擴展、易於實現和使用，幾乎可以在任何硅工藝中實現，在支持低電壓的更高級節點上實現極低的功耗。總的來説，BoW解決方案將代表最低功率、最密集的解決方案，但有一個顯著的缺點:一旦接口超過一定的帶寬，封裝成本將顯著增加。由於目前的有機封裝襯底技術的限制，一旦裸片之間的帶寬超過每毫米約400Gb/s，就需要轉向基於硅的互連介質或高密度有機溶液。

並行接口AIB/HBM

高帶寬存儲器(HBM)一直是驅動行業多芯片集成的主要參與者，它使用硅插接器上相對低速的並行接口，採用非常寬的接口和良好的佈線間距。AIB是DARPA芯片項目與行業合作伙伴共同開發的一種接口，在數據速率和硅橋或插入技術上的精細間距佈線使用方面與HBM大體相當。這兩種技術都實現了相對較高的帶寬密度，但也需要相對複雜的硅基互連技術。

比較協議

上面討論的每個解決方案都傾向於優化這些因素中的一部分或大部分，但在許多情況下，最佳解決方案高度依賴於應用。並行接口如BoW、AIB、HBM提供低功耗、低延遲和高帶寬，但代價是需要在裸片之間連接許多線路。只有使用昂貴的插接器或橋接技術才能滿足佈線要求。相對於並行接口，SerDes提供了類似的帶寬，但是會增加一些額外的能力和事務延遲。SerDes已被用於在各種標準中，用有限數量的物理線提供高帶寬的off-die通信。然而，大多數SerDes，如那些用於以太網通信或PCI Express雖然面積有效，但能耗太大。USR SerDes提供off-die通信，其優點更接近於片上互連。然而，由於串行化開銷，基於SerDes的通信通常會比片上網絡帶來更大的延遲。

系統設計人員在選擇 die-to-die的互連之前，應考慮其應用的所有相關要求。圖6中的圖表總結了每個接口在各種相關參數上的相對優勢和劣勢，例如優點圖——硅和層壓基板上的帶寬密度與功率和帶寬密度的比值。

本文討論的ODSA通過使用一個通用的數據傳輸事務協議來抽象PHY協議。ODSA事務層允許系統設計者為其功能選擇最佳接口，而無需指定特定的解決方案。如圖7所示，多芯片系統基於預算限制、可用性、帶寬和功率需求而利用多種接口技術。

圖6：比較die-to-die協議

圖7：比較新的片間互連技術

基底與封裝

在產品和市場需求的驅動下，實現了更高密度的集成，封裝技術在過去幾年經歷了革命性的轉變。對封裝的要求已經從單純地實現與外部世界的電氣和機械連接，發展到現在支持多芯片封裝中不同芯片之間的多種接口技術。

多chiplet封裝要求

將多個芯片和/或封裝集成到一個MCM中導致了更大的封裝尺寸，這導致了更小的信號線和空間。如果不考慮相應的封裝技術，就無法確定用於特定用途的最佳chip-to-chip接口。芯片之間的接口指導和影響封裝技術的選擇，特別是需要集成多個芯片的基板。封裝正成為實現多芯片集成的關鍵領域之一。三個相關問題促使我們選擇適合多芯片設計的封裝技術：

chip-to-chip接口成本限制和性能要求多chiplet 封裝的總尺寸

例如，在片間互連中的高線密度可能要求使用支持高線密度的基板或橋接技術。高帶寬存儲器(HBM)的啓用可能是這一趨勢的最好證明——因為HBM只能與ASIC集成在同一個封裝中，而且此時只能在2.5D的硅中間層配置中集成。HBM芯片的外部互連是DRAM式的，需要大量的I/O。因此，它的封裝使用了間距為55um、直徑為25um的微凸塊（u-bump）。在HBM2中，u型凸起的總數為4,942個。由於ASIC芯片在與HBM芯片通信時必須使用相同數量的I/O，所以ASIC芯片必須使用u-bump，並且u-bump的間距和直徑也要類似。由於今天在有機基質中C4和Cu柱的最小允許凸起間距分別為130um和90um，硅中間層成為唯一可行的解決方案。

雖然硅基封裝技術已經發展為批量製造解決方案，但成本和複雜性可能會阻止它們成為大多數低端應用的正確解決方案。標準的FC-BGA封裝是一種較低成本的選擇，支持多種互連技術（SerDes和BoW），但無法實現與硅基解決方案相同的帶寬。

這種差異是顯著的，因為硅中間層帶來高成本，高製造複雜性和產量損失。設計和製作2.5D硅中介層封裝的NRE成本很容易達到100萬美元甚至更高，每個芯片的生產組裝成本接近100美元。相比之下，設計和製造MCM組件的NRE成本僅為100萬美元的一小部分，每個芯片的生產組裝成本也遠低於100美元。從經濟上講，擺脱硅中間層並回到傳統的MCM封裝具有很大的好處。

使用有機基板就像使用傳統PCB一樣。PCB和有機基板都是通過使用傳統的蝕刻工藝製造的，而傳統的蝕刻工藝不依賴於半導體制造設備的使用，而硅中介層為了實現精細間距而需要使用半導體制造設備。

封裝尺寸是第二個需要考慮的問題，它主要由組件的總裸片尺寸決定。在翹曲和熱膨脹問題達到極限之前，球柵陣列(BGA)封裝可以可靠地達到75mm x 75mm的尺寸。BGA封裝可以焊接或安裝在插座上。柵格陣列(LGA)插座，可達到110mm x 110mm的大小。LGA插槽包括一個微小的葉彈簧，允許發生一些翹曲和膨脹。TE Connectivity擁有一個名為XLA sockets的LGA產品線，該產品線不僅提供了這種能力，還保證了良好的SerDes信號完整性，可以輕鬆地處理56G SerDes和112G SerDes。110mm x 110mm是一塊大吐司的尺寸，可以容納很多功能。

傳統上，標準硅中介層僅限於光罩尺寸。對於大多數使用的硅製造設備，該掩模版極限在32mm x 26mm的範圍內。更高級的解決方案包括縫合多個光罩場以形成更大的硅中間層，或者僅在需要它們的區域使用較小的硅中介層（“硅橋”）。

並行接口集成封裝

並行接口，如AIB或HBM，或提出的更通用的BoW接口方法，大大增加了可使用的封裝技術的需求。BoW通常比串行解決方案具有更慢的信號速度，但芯片之間的互連明顯更多。根據芯片之間需要支持的帶寬大小，可以選擇不同的封裝技術:

對於芯片之間的低到中帶寬要求，可以使用相同的FC-BGA基板技術，但需要增加的是較小的線纜，而SerDes信號使用的是較大的線纜(20um線/空間)。對於高帶寬應用，信號線的數量需要最大化，因此線路和空間需要進一步大幅縮小。可以打印的最小几何圖形總是在硅上，因此2.5D(或其他基於硅的技術，如EMIB)可以提供非常高的帶寬密度。在實現顯著的好處的同時，使用硅作為封裝互連媒體也會導致複雜和昂貴的封裝解決方案。目前正在開發的一些新技術針對的是“中間空間”——這種解決方案成本更低，但仍然能夠實現非常高的互連密度。這些解決方案包括在常規層(“2.1D”)的基礎上加工額外的細間距層的有機層合板，以及一些新的晶圓級扇出技術，旨在實現HBM要求的類似佈線密度。SerDes集成封裝

USR SerDes互連技術的發展大大減少了半導體芯片之間通信所需的I/O總數。它允許有機基質提供裸片之間的互連，使成熟的MCM技術再次為我們服務。

傳統的SerDes，以及不斷發展的XSR和USR Fempto SerDes都有一個共同的優勢，即信號線數量更少(運行速度更快)。這使得一個相當標準的封裝解決方案成為可能，例如FC-BGA。支持MCM集成的FC-BGA封裝技術的主要新元素現在允許：

支持更大的封裝尺寸:

• 對於32/28nm節點，有一種比較保守的看法是封裝大於~55mm會導致卡片裝配出現問題。這一觀點在過去幾年裏有了顯著的發展，70mm的封裝已經投入生產，80-100mm的封裝已經在許多公司的路線圖中。

支持超高速信號（如100G XSR）的電氣要求：

• 需要在封裝基板中使用低損耗的電介質，以便在將插入損耗保持在可接受水平的同時延長跟蹤長度。

高速信號，如來自USR或LR SerDes的信號，可以通過硅中間層穿隧。典型的技術是利用幾個相鄰的裸片微凸塊形成輸出，以保持阻抗，從而保持SerDes的傳統裸片凸點的信號完整性。還有更多的微凸點，還有更多的微凸點形成一個更緊密的接地凸點桶。。

然而，由於使用SerDes減少了對線數的要求，因此可以使用更便宜的玻璃甚至有機基板來構建大型多芯片封裝。使用這些基板降低了總的封裝開發成本。

chiplet間數據傳輸協議

在大多數加速應用程序中，在一個多chiplet產品中，在多個chiplet上數據路徑可能同時運行執行。多個chiplet通過數據傳輸協議共享數據。相干協議使用硬件支持為軟件開發人員在主機和DSA上提供一致的內存狀態。提供這種一致性的成本與需要實現這種一致性的物理區域成比例。在非常大的範圍內，實現一致性的延遲成本可能非常大，程序員對這種延遲的直接控制非常有限。有幾種用於加速器狀態一致性的開放協議，包括CCIX、TileLink和OpenCAPI。

非相干數據結構是相干協議的替代方案。在具有非相干結構的系統中，開發人員顯式地控制數據傳輸。TensorFlow是使用非相干數據傳輸的加速器的一個例子。為chiplet開發非相干數據結構有兩種選擇。一種選擇是擴展片內結構以進行片外傳輸。大多數片上結構使用同步全局總線。這些總線不容易擴展到芯片外。第二種選擇是使用片對片的非相干數據傳輸協議進行片對片的數據傳輸。PCI Express是最常見的片間非相干數據傳輸協議。但是，在封裝中使用它的開銷可能很大。Netronome開發了一種用於非相干數據傳輸的輕型可伸縮結構技術實施證明要點

本節回顧了原型中使用的先進技術的證明點。具體來説，我們討論了USR SerDes、基底和非相干數據傳輸協議的實現。下文將討論ODSA的原型實現。

超短距離SerDes

在過去的幾年中，出現了一種使用硅中介層或硅襯底的重要替代方案。這種選擇是低成本基底和高能效USR SerDes的組合。這些USR SerDes的出現，特別是Kandou使用CNRZ-5調製技術的Glasswing SerDes的出現，使得可以在大型MCM上構建複雜的系統。CNRZ-5調製技術提供了NRZ形的接收眼，因此即使在高速率下也可以使用最小的均衡，從而降低了功率。

（1）在有機基質上的調製-CNRZ-5 vs PAM-4 vs NRZ

選擇在有機封裝上運行的SerDes上使用的調製技術非常重要。三個相關的選擇是CNRZ-5，PAM-4和NRZ。在基底上使用PAM-4調製技術是一個糟糕的選擇，因為它具有糟糕的本機錯誤性能，必須通過顯著的、有時是高延遲的前向錯誤控制(FEC)塊和/或大型大功率均衡器來保護。這種糟糕的本機性能的原因是PAM-4在同一鏈接上的“眼圖”有大眼睛和小眼睛的組合，這是PAM-4的三個堆疊的眼睛的結果。來自大眼睛的能量反射到任何缺陷和接收器上。這種反射的能量會使小眼睛閉上。反射是USR/XSR鏈路的主要缺陷。非反射符號間干擾(ISI)也存在類似的影響。

PAM-4被下一代的XSR-SerDes所使用，這些SerDes正被開發用於光學模塊應用。在這種應用中，一個大的系統FEC是用來保護光鏈路的，所以它是免費提供給直接將數據傳送到光學鏈路上的電子鏈路的。在幾乎所有其他應用程序中，重要的FEC塊都需要與鏈接一起使用。這意味着他們通常需要增強均衡和FEC。OIF CEI-56G-XSR-PAM4互操作性協議的誤碼率是1E-9。

NRZ USR Phys功能強大，通常可以在沒有FEC的情況下使用。在相同的波特率下，NRZ PHY的pin效率低於CNRZ-5 PHY。由於可用的裸片球數量有限，因此pin效率在USR應用中至關重要。降低的pin效率直接降低了使用NRZ的裸片的邊緣帶寬。也就是説，市場上有25Gb / s NRZ USR PHY，目前有多家供應商正在開發50Gb / s NRZ USR PHY。

（2）Kandou的chiplet USR證明點

GW16-500 Quad Glasswing Phy是首批利用和絃信號的PHY，這是一種創新的PHY技術。Glasswing使用CNRZ-5 和絃信號，這是一種信號形式，適合單端和差分信號之間的空間。和絃信令可以通過以更低的功耗和更少的pin獲得更多的比特，從而使幾乎每個接口都變得更好。

Glasswing FemtoSerDes PHY採用CNRZ-5(基於弦向信號的非歸零5通道)調製技術，在6根電線上攜帶5比特。它具有出色的信號完整性（SI）屬性，因為它結合了專門針對SI設計的特定多弦編碼器和特定和絃接收器。良好的SI使Glasswing能夠以最小的均衡在低信號擺幅下運行，從而節省了功率，而差分信號卻沒有2倍的線損。

GW16-500 Glasswing PHY提供4套5個25Gb/s通道，通過24根數據線提供總計500Gb/s的帶寬，每個方向提供2根時鐘線。對系統來説，它看起來像20個共享一個時鐘的25Gb/s服務器。PHY還通過使用時鐘-數據校準(CDA)和轉發時鐘來節省功耗。下面的圖8顯示了Glasswing凹凸貼圖，它只佔據了2.4毫米的芯片邊緣。

圖8:GW16-500-USR凹凸貼圖

（3） AQlink chiplet USR證明點

AQlink是由Aquantia公司開發的利用差分NRZ信號的USR PHY技術。最小的AQlink構建塊是一個收發器，它包括兩個用於收發接口的差分對和一個用於時鐘接口的差分對。AQlink需要時鐘轉發的優點是簡化了接收器中的數據恢復電路，因此有助於最小化接收器中的功率和麪積。在時鐘轉發方案中，用於時鐘發送器的時鐘與發送數據信號一起轉發給鏈路夥伴收發器。鏈路夥伴接收轉發的時鐘並重新生成與數據信號中心相位對齊的新時鐘信號。為了限制時鐘信號在封裝基板上的凸點和軌跡的數量，每個差分時鐘信號可以由多個收發器使用。這種拓撲的一個例子是AQlink-Quad1模塊，如圖9所示。AQlink-Quad1模塊包括四個差分數據對和一個差分時鐘。為了提高碰撞和跟蹤效率，幾個收發器可以共享一個差分時鐘信號。然而，為了在數據速率為>50Gb/s時獲得穩健的性能，建議最多與三個收發器(六個差分對)共享一個時鐘信號。

圖9:AQlink-Quad1有四個差分數據和一個差分時鐘對的凹凸圖

在14nm格芯工藝節點上首次實現了AQlink-Quad1。它支持每個端口20Gb/s- 56gb /s的吞吐量範圍，或112Gb/s的發送和112Gb/s的接收，在典型的有機封裝基板（例如GZ41基板材料）上，它在25mm的走線上支持每端口20Gb / s-56Gb / s的吞吐量範圍，或總共112Gb / s的發送和112Gb / s的接收。通過以半速率運行PHY，可以將每個端口的數據速率降低到10Gb / s，其中每個位被複制兩次並以連續的位時間進行傳輸。AQlink-Quad1在並行側具有一個64位寬的接收器接口和一個64位寬的發送接口，其時鐘頻率最大為1.75GHz。可以向並行接口添加一個可選的2x適配器模塊，以將接收和/或發送寬度增加到以最大875MHz時鐘同步的128位。

AQlink-Quad1提供極具競爭力的能量效率，其本身是信號波特率、跟蹤長度、電源電壓和温度的函數。收發器在110C下，每端口56Gb/s，超過25mm的跟蹤長度時，每比特消耗的能量最大。AQlink-Quad1硅已經集成在不同的IC產品中，已經充分驗證了工藝、電壓和温度(PVT)，能夠在不使用FEC的情況下提供BER<1E-15，並支持ESD為400V HBM和100V CDM。

幾個AQlink模塊可以組合在一起，在裸片邊緣構建更高吞吐量的數據接口。例如，AQlink Tera是通過將10個AQlink-Quad1模塊組合在一起以提供高達1.12Tb/s的吞吐量來實現的。圖10顯示了AQlink-500G，它是通過將5個AQlink-Quad1模塊組合在一起以提供高達560Gb/s的吞吐量創建的。AQlink-500G IP core 2佔用1.04mm，0.4mm的高度超過2.6mm的芯片邊緣。在它的並行側，它有320位寬的接收接口和320位寬的發射接口。使用每個端口的32:64適配器，並行接口可以增加到640位寬的接收和640位寬的傳輸。

圖10:AQlink-500G凹凸貼圖

(4)PIPE PHY接口層

如上所述，為多芯片系統選擇PHY協議有多種選擇。如果不同的接口可以為更高數據傳輸層提供一個通用接口，則可以簡化系統設計。PIPE接口一直是PCIe控制器和PHY之間的關鍵接口。PIPE的最初草案是由Intel在2002年定義的。自從PCIe演變以來，它已經進行了多次更新。

例如，定義CCIX協議時，其架構師會重用PCIe體系結構的各個部分，包括PIPE接口。市場上的某些或所有CCIX控制器實現都使用PIPE接口作為鏈接層和PHY層之間的鏈接。CCIX添加了一個附加的可選PHY波特率，但是此修改完全在PIPE上下文中完成。十六通道是PCIe和CCIX的高帶寬實現的主要寬度。市場上重要的CCIX控制器僅支持16通道PIPE接口。

例如，可以使用PIPE適配器在Kandou Glasswing USR SerDes上承載16通道PIPE接口。該模塊將CCIX IP控制器的PIPE接口連接到Glasswing。在啓動時，使用自動啓動機制將Glasswing的四個和絃中的每個和絃的五個32位子通道綁定在一起。這形成四個160位接口。自動啓動將每個和絃的五個子通道對齊為單個160位鏈接。根據適配器的較長定義，將它們進一步劃分為16個40位插槽。

每個插槽的最大容量為512/16 = 32Gb / s。來自PIPE接口的十位數據依次放入相應的插槽中。對於32GT / s（PCIe Gen 5），以25.6 GBaud運行Glasswing。對於25GT / s（CCIX ESM），Glasswing的運行速度為20 GBaud。對於16GT / s（PCIe Gen 4），以半速率模式在12.8 GBaud下運行Glasswing。

使用CCIX或PCIe控制器上PIPE接口的第4.2節（版本5.1）中的模式。Glasswing和PCIe / CCIX控制器必須在同一個傳輸時鐘上計時。Glasswing的和適配器時鐘發生器必須基於相同的來源。在緩衝中需要考慮所有組件的抖動和漂移。

PCIe和CCIX控制器都支持重傳緩衝區，該緩衝區能夠覆蓋Glasswing的1E-15錯誤率所支持的任何錯誤。該錯誤率優於為PCIe / CCIX指定的錯誤率。

基材與封裝

我們回顧了最近的結果，這些結果顯示了在多芯片封裝中顯著降低成本的潛力。

（1）有機基材

通常，並行接口（例如高帶寬存儲器）所需的高導線密度要求使用硅中介層技術。如前所述，硅中間層比有機中間層要貴得多。商業供應商和學術研究人員均已證明，有機中間層可顯著提高密度。凸點密度從150um增加到40-80um，導線密度從5um間隔增加，而不是典型的30um間隔。即，低成本有機襯底可以實現與使用高成本硅中介層所達到的密度相當的密度。

（2）玻璃核技術

玻璃核技術（GCT）是硅中間層和有機襯底的一種高性能，高性價比的替代品。GCT充分利用了玻璃（優於硅）的優點，以允許使用直徑較小的通孔和通孔之間的間距較小。GCT使用玻璃通孔（TGV）連接到再分配層（RDL），以在玻璃基板上創建所需的電路。玻璃的介電性能使其非常適合低損耗，超高速應用。這允許將IC直接放置在玻璃基板上，並使玻璃適用於高速度多芯片封裝。

圖11:封裝用玻璃基板

（3）封裝的光學和微型同軸電纜

為了在不增加功耗的情況下增加封裝I / O帶寬，已經開發出了新的微型機載光學模塊，可以將其放置在與IC封裝非常接近的位置。Samtec的Firefly天橋系統與光學和微型同軸電纜模塊兼容，就是這種解決方案的一個例子。當前，每個通道的速度為28Gb / s。

圖12：SamtecFirefly

為了充分利用USR低功率SerDes所帶來的速度提高和功率降低的優勢，進一步的發展是將跨接式連接器直接置於封裝的邊緣。

圖13:光纖到封裝的連接器位置

Firefly連接器可以小到可以放在封裝的邊緣，如圖14所示。

圖14:兩個Firefly連接器嵌入到一個45mm的方形封裝中

此外，由於光模塊是如此接近，因此可以省去光模塊中的普通CDR中繼器。目前正在開發56Gb / s的Firefly模塊的直接連接版本（光學和電氣版本均在下面顯示）。

（4）指令驅動的開關結構(ISF):可伸縮的數據傳輸

通常，ASIC/SoC上對等元件之間的片上通信是同步的。用全芯片通信網絡來實現這種同步通信所必需的深流水線會產生很大的面積和功率損失。ASIC的面積越大，同步片上通信的代價就越大。Netronome開發並使用了一種基於輕量級消息的片上數據通信協議。這允許使用一個簡單的可伸縮的分佈式交換結構來實現全芯片通信。

ISF互連是Netronome網絡流處理器（NFP）中的主要全局總線。如下圖15所示，NFP在物理上實現為邏輯塊（或島）的平鋪數組。每個邏輯塊通過一個簡單的BoW接口與其直接的物理鄰居連接。ISF上的數據傳輸是以編程方式編排的。ISF命令語法是可擴展的，支持用於數據傳輸的命令，甚至支持在另一個島上的遠程總線代理處進行處理，以便在數據所在的遠程位置處理數據，從而最大限度地減少數據移動和處理時間。

圖15：可擴展的ISF和數據傳輸協議

在當前一代硅中，每個邏輯塊最多可以有六個DSF接口（K=6）。1GHz下的每個64位寬DSF接口鏈路在節點處向每個邏輯塊提供128Gb/s的雙向帶寬。因此，理論上每個邏輯塊的總吞吐量是K*128Gb/s。在圖15中的示例中，每個邏輯塊可以支持768Gb/s的雙向帶寬。在由邏輯塊組成的裸片（在典型的Netronome產品中）上訪問數據的延遲在5到20納秒之間變化。分佈式實現具有以下優點：

**• 高帶寬：**由於可以並行執行許多事務，因此可以實現與交叉開關相當的高聚合帶寬， ISF對於每個島都有單獨的數據/命令路徑和主數據。通過分佈式仲裁，許多近鄰連接可以同時運行。總線時鐘頻率可以更高，因為所有電線都是本地的。

**• 高效節能：**由於幾乎沒有全局物理連接，因此ISF耗散的功率更少，並且時鐘速度比全局總線快。

**• 可擴展性：**ISF基礎設施可跨多個不同的邏輯塊實例進行擴展，支持每秒數十億命令和萬億字節數據傳輸的峯值速率，使得這種分佈式總線吞吐量可與crossbar相媲美。然而，這種物理分佈的總線消耗更少的硅裸片面積。

我們建議將這種可擴展的設計擴展到多芯片封裝中的片外數據通信。

八種商業模式

chiplet的願景是一個廣泛的生態系統，其中有成千上萬個可互操作的chiplet構建在各個foundry中，這些chiplet可提供各種功能，以降低成本，加快產品上市時間並提高成本效益。業務模型將需要支持這一願景。

為了使這種方法成功，需要建立新的商業模式。集成ASIC供應商已經為集成高帶寬存儲器（HBM）模塊、存儲器設備和已知的良好裸片（KGD）系統建立了有效的模型。這個模型可以擴展以提供與來自多個源的組件更復雜的集成。下面的插圖概述了這樣一種業務模型，其結構為各種組件的“所有者”。

chiplet模型也可以使總體投資成本受益。例如，如果一家公司在開發機器學習加速器方面具有真正的價值，那麼他們為每個可能的系統開發網絡接口可能就沒有意義。能夠通過選擇可用的組件將網絡接口引入設計中，從而減少了開發和構建網絡接口硬件所需的投資。相反，構建這些網絡接口chiplet的公司將從數量增加中受益，從而將其投資攤銷到更大的收入流中。

一、chiplet的工作流程

圖16中的示例顯示了構建組件的選項，其中RF設計公司可能需要在各個節點中集成額外的複雜邏輯功能和模擬IP。在這種情況下，射頻設計公司利用與ASIC供應商的合作關係開發“產品”，將接口IP和功能構建到產品的一部分。

圖16:帶有片間接口標準IP的新型射頻元件設計流程

下一階段的組裝如下圖所示，其中ASIC提供商與外包半導體組裝和測試公司（OSAT）合作，使用從以上RF提供商委託的組件以及OEM客户ASIC功能來設計和組裝MCM封裝。

圖17:OSAT基於chiplet的設計流程

當然，這些複雜的模型需要建立細節，以便能夠順利地解決採購和測試需求的定價問題，但是隨着行業在模塊中提供越來越複雜的組件，其中許多路徑正變得越來越熟悉。

多供應商裸片生態系統的一個結構性問題是以晶圓形式交付KGD的實踐。傳統的方法包括用墨水點（或在數據庫中做一個條目）標記測試失敗的裸片，然後交付標記的晶圓。然後將標記的晶圓切成小塊並封裝。

在多供應商生態系統中使用此流程的一個問題是，它將每個晶圓的良率暴露給裸片的客户。對於半導體制造商來説，芯片良率往往是一個受到嚴密保護的事實。

在實現多供應商生態系統時，至少有三種解決方案可供使用：

1.從切好的晶圓上取下裸片並將其放在載體上

2.使用可信的、受合同約束的第三方

3.使用芯片級封裝中提供的預包裝、預測試芯片

這些解決方案中的每一個都解決了良率風險的問題。這些解決方案提供了不同的方法來交付已知良好的設備以進行集成。

二、硅知識產權

在過去的十年裏，片上系統（SoC）已經成為除大型數據中心服務器外提供計算能力的主要方式。PC、筆記本電腦、手機、網絡網關和各種各樣的嵌入式系統都採用了SoC。SoC通常由稱為硅IP的各種預先設計的邏輯塊組成。

傳統上，硅IP的許可方通過預付許可費和單位使用費的組合來提供他們的技術。他們將提供驗證測試，並預計與設計錯誤相關的責任限額。一個IP供應商將尋求在多個客户之間分攤IP開發的成本，這要比SoC供應商自己開發功能並且是該功能的唯一用户所能獲得的價格低。

互連IP有一個獨特的要求，即同一IP必須在鏈路的兩側工作。系統架構師和採購經理將堅持認為，IP具有靈活性，可以移植到不同的foundry，移植具有成本效益，最終互連IP可以從多個IP供應商處獲得，或者可以由芯片供應商獨立開發。業務模型將要求互連IP貢獻在整個chiplet組生態系統中可用和可訪問。這可以通過現有的標準組織（如OIF或IEEE）、現有的行業聯盟（如開放計算平台（OCP））或新的聯盟（如USR聯盟）來實現。

三、chiplet集成的新機會？

chiplet集成將需要不同於硅IP的業務模型。其原因是，與硅IP不同，chiplet將需要被加工製造且質量保證長達數年甚至數十年。

大型半導體公司可能會繼續垂直整合其設計，構建，組裝和測試自己的基於chiplet的MCM解決方案的能力。設計面向特定任務的chiplet的較小公司將不太可能具有此功能，而是依靠foundry或封裝廠在MCM中進行集成和測試。

chiplet公司需要根據foundry願意提供的支持，就chiplet的使用壽命向客户提供製造保證。或者，為了更好地保證對終端客户的供應，chiplet供應商可以向多芯片模塊開發商提供製造權轉讓，以換取版税。

最初，foundry和/或封裝廠不僅要代表chiplet開發商承擔製造chiplet的責任，而且還要承擔為MCM集成商提供合格的chiplet的責任，然後提供許可或使用費的運營業務根據最終單位的銷售情況返回給chiplet供應商。foundry或封裝廠將建立一個chiplet設備目錄，可以選擇將其集成到MCM中。

隨着時間的推移，隨着不同chiplet庫存的擴大，系統公司將希望靈活地混合和匹配來自不同foundry的chiplet。很容易想象，新公司可能會形成新的基於芯片的MCM解決方案，並利用整個行業的最佳解決方案。

大型半導體公司的半導體廠商可能會採用一種為自己的設備開發chiplet技術的模式，在這種技術中，他們有75%到80%的技術是由芯片供應商提供的，而只有在非戰略性或沒有經濟意義的情況下，才會外包特定的技術。可以作為外包芯片開發候選技術的例子包括:內存技術、SerDes技術、FPGA技術和DSA技術。然後，大型半導體廠商可以建立自己的封裝、互連技術和chiplet廠商的專屬生態系統。

chiplet設計類似於當前SoC設計但是價格可能會小於完全集成的SoC設備。因為它們是在硅中實現的，所以它們需要對已知的良好的裸片進行測試和最終封裝的封裝內測試開發對應的測試程序。必須為重新設計做好準備，並並需要建立機制以便在最終產品生命週期內跟蹤硅的修訂。

四、開放的加速器和chiplet將驅動新的工作方式

一種方法是將MCM視為一種新的PCB，在這種PCB中，組裝、測試和部署可靠的多芯片解決方案需要一個可互操作的組件、互連、協議和軟件的生態系統。

MCM並不是什麼新鮮事物，並且可以輕鬆利用現有的許多半導體生態系統進行硅設計，KGD測試，封裝設計和組裝。商業模式通常無需更改。但是，當MCM包含許多chiplet時，將需要額外的注意和規格，例如：

針對USR應用的高效鏈路、協議和軟件解決方案USR標準和互操作性協議驗證互操作性的USR組件認證程序chiplet上的生態系統調整和已組裝的MCM測試程序大容量MCM組裝和測試產品保修現場故障分析及根本原因識別

由Netronome、Achronix、GlobalFoundries、Kandou、NXP、Sarcina和SiFive聯合發起的ODSA工作組已經成立，旨在開發一種開放式架構和相關規範，用於開發承諾降低硅開發和製造成本的chiplet。ODSA工作組還將開始研究可行商業模式的細節，以實現chiplet的願景。

結論

為了彌補摩爾定律的終結，需要DSA來處理數據中心和網絡邊緣的工作負載。然而，目前為DSA開發定製單片ASIC的方法在經濟上已不可行。異構系統中，集成ASIC由來自多個工藝節點和/或多個供應商的chiplet組成，是降低開發成本的一種選擇。目前開發完整系統的方法是封閉和專有的。

最近調查的互連和封裝技術以及數據傳輸協議方面的進展顯著改善了異構系統。這些進步被用於為DSA提出一種新的開放架構ODSA。與當前的標準化方法不同，ODSA提出了實現DSA所需的完整堆棧的標準，包括數據傳輸協議。該提案是建立ODSA的原型實現。還審查瞭如何發展商務模式以支持基於chiplet的製造流程。

ODSA體系結構的主要優點之一是能夠將PHY接口與用於其他處理功能的物理裸片解耦。在chiplet之間使用的事務層是實現這種集成的關鍵因素。通過利用ODSA模型，開發人員可以根據性能需求、IP可用性和成本自由地為每個chiplet選擇最佳解決方案。開發人員可以快速地將支持ODSA的chiplet組裝成最好的加速器。

本文摘譯自ODSA工作組，由半導體行業觀察翻譯，電子科技大學黃樂天副教授參與校正，特此感謝！