巨頭競逐Chiplet_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2021-03-01 17:41
來源:內容由半導體行業觀察(ID:icbank)編譯自「eetimes」,作者:湯之上隆,謝謝。
過去幾年,因為廠商的推動,Chiplet這個概念已經深入民心。在本文中,我們將首先討論什麼是“Chiplet”、為什麼需要“Chiplet”?而且會參考上文提到的西尾先生的演講內容(已經得到西尾先生的許可)。此外,本文還會介紹TSMC、三星電子、英特爾在此次的IEDM上發佈了何種尖端封裝技術。最後,展望未來,論述含有“Chiplet”的尖端封裝技術能否牽引摩爾定律繼續前進。
什麼是“Chiplet”
在此次的IEDM的短課程(Short Cause)上,三星電子的SE-Ho You先生做了題目為“From Package-Level to Wafer-Level Integration”的演講,且展示了“Chiplet”的未來形象。(如下圖1)
圖1:“Chiplet”是什麼?出自:SE-Ho You (Samsung), “From Package-Level to Wafer-Level Integration”, IEDM2020, SC1。
之前,用一個科技節點(Technology Node)可以製造出含CPU、GPU、調制解調器、SRAM、Serdes/DDR等功能的SoC(System on Chip)。
按照功能的不同,分別利用最合適的技術節點來製造。如圖1的右側所示,用Node A生產GPU、用Node B生產CPU、用Node C生產Serdes/DDR、用Node C生產SRAM,即分別在不同的晶圓上生產,集合(Integration)以上這些功能,並彙集在一顆芯片上。
即將以上這些功能集合在一顆芯片上。
如上所述,通過連接由單獨的晶圓製造的芯片,形成具有某一功能的SoC技術就是“Chiplet”的概念。
那麼,為什麼“Chiplet”越來越重要呢?其原因在於尖端半導體需要處理的數據量成指數級增長。
不斷增長的數據量和AI半導體市場
下圖2出自2020年8月13日在線舉行的“Intel Architecture Day 2020”的資料,顯示了人類創造的數據量的推移。從圖2可以看出,2020年的數據量超過50ZB(Zettabyte,十萬億億字節,1021),預計2025年將會擴大至175ZB。
圖2:人類創造的數據量。(圖片出自:Intel Architecture Day 2020的資料)
為了處理這樣龐大的數據量,所以人工智能(AI)半導體市場急劇擴大(如下圖3)。據預測,2020年的市場規模將超過100億美元(約人民幣646.48億元),2027年將會達到833億美元(約人民幣5,381.18億元)。
圖3:AI半導體市場規模推移(2019年以後為預測值)。(圖片出自:Artificial Intelligence Chip Market)
AI半導體的用途主要有以下:智能手機、平板電腦、音響、可穿戴設備、企業邊緣(Enterprise Edge)等(如下圖4)。AI的最大用途方向在於智能手機,據預測,2020年的規模為5億美元(約人民幣32.3億元),2024年翻至2020年的兩倍,達到10億美元(約人民幣64.6億元)。另一方面,企業邊緣的市場規模雖然不及智能手機,但2024年的市場規模為2020年(市場規模為0.5億美元,約人民幣3.23億元)的5倍,增至2.5億美元(約人民幣16.15億元)。
圖4:各種方向的AI半導體市場(預測值)。(圖片出自:MarketsandMarkets)
如今的4G智能手機已經搭載了NPU(Neural Processing Unit)這一AI應用處理器(AP,Application Processor),未來,隨着5G手機的普及,佔據NPU性能、AP的空間會越來越大。因此,智能手機方向的AI市場也會出現增長。
此外,隨着5G的普及,雲計算市場就像金字塔一樣,AI市場定會迅速擴大。即,在各種5G通信設備附近都設有搭載了AI的邊緣計算(Edge Computing,此處包含“企業邊緣”)進行高速運算處理,其上面一層為“霧計算(Fog Computing)”、再上一層為“雲計算(Cloud Computing)”。
AI:從GPU到ASIC
如上所述,由於大數據規模的擴大,帶動處理大數據的AI半導體市場增長,到底什麼樣的AI半導體會成為主流呢---這是經常變化的(下圖5)。在2017年,NVIDIA的GPU席捲全球,市場份額達到97%,據預測,到2025年GPU市佔率會下滑至40%甚至更低,而ASIC的市佔率會達到50%。
圖5:AI半導體種類的變化(預測)。(圖片出自:McKinsey)
換句話説,由於普通GPU(GPGPU:General-purpose computing on graphics processing units)的處理性能不足,因此出現了諸多專用AI半導體(如智能手機專用、無人駕駛汽車專用、邊緣計算機專用),且佔一半以上份額。
但是,即使是ASIC AI,要處理逐年不斷增長的大數據也是十分困難的。據預測,僅靠提高芯片本身的性能已經無法同時滿足AI半導體的高速處理、節能、成本優勢等目標。
大數據和AI半導體的處理能力
在2020年9月17日-18日召開的The Second AI HW Summit上,英特爾指出,AI半導體處理的數據量每3.5個月擴大兩倍、每年擴大約10倍、每兩年擴大64-100倍。(如下圖6)
圖6:AI處理的數據量每3.5個月擴大兩倍,每兩年擴大64-100倍。(圖片出自:MOOR Insights and Strategy, AI Hardware: Harder Than It Looks)
作為ASIC(或者SoC)的AI半導體能否處理以上這些成指數級增長的數據量?下圖7是2018年版的IRDS(International Roadmap for Devices and systems)登載的SoC的CPU、GPU核數、CPU吐出量(處理能力)。
圖7:SoC的核數、CPU的吐出量。(圖片出自:IRDS2018)
2020年SoC中的CPU核數為13,GPU為27個,到2031年,CPU增至95個(7.3倍)、GPU增至97個(3.6倍)。其中,CPU的吐出量在2020年為0.32 TFLOPS/sec、2031年將會增為2.64 TFLOPS/sec,增長了8.25倍。但是,這是不考慮因發熱問題而產生的速度下降問題,如果因發熱而導致速度下降,2031年的吐出量僅為0.95 TFLOPS/sec,增長約3倍。
所謂的“TFLOPS/sec”指的是“tera floating-point operations per second”的縮略,是表示計算機處理能力的單位,tera為1萬億,FLOPS為每秒浮點計算次數。因此,1 TFLOPS為浮點每秒計算一萬億次。
那麼,從2020年到2031年,SoC中的CPU核數將增長7.3倍,增至95個,如果不考慮因發熱引起的速度低下問題,CPU的預測速度將提高8.25倍,提高至2.64 TFLOPS/sec。因此,預計在2031年登場的SoC AI半導體與2020年相比,其計算能力將會提高60倍=7.3*8.25。
但是,AI半導體處理的數據量如上圖6英特爾所展示的一樣,在兩年內增長64-100倍,即使是最小值64倍,在2031年將會達到10億倍(2020年的64的五次方),僅靠增加核數、提高各核的吐出量,處理能力還是不足。
隨着核數的增加、SoC成本也增加
與持續增長的數據量形成對比,SoC AI半導體的處理能力完全不足。但是,為了提高處理能力,只能增加SoC的核數、持續擴大各核的吐出量。因此需要進一步提高微縮化(Scaling)。但是,隨之而來的高昂的晶圓成本又是一大問題。
下圖8是2020年VLSI座談會上的演講內容,AMD的Samuel Naffziger先生髮表了名為“Chiplet Meets The Real World -- Benefits and Limits of Chiplet Designs”的演講,同時展示了微縮化與芯片成本的關係。
圖8:微縮化與芯片成本的增長。(圖片出自:Samuel Naffziger (AMD), “Chiplet Meets The Real World -- Benefits and Limits of Chiplet Designs ”, VLSI2020, Short Course 2-1.)
如果把利用45納米節點生產的芯片成本看做“1”,隨着微縮化發展,芯片成本也增長,5納米節點下的成本為45納米節點的五倍。從圖8可以看出,14納米/16納米節點以後,圖表呈現急劇增長趨勢,此處應該是採用了EUV(極紫外光刻)技術。
微縮化照此發展下去,芯片成本勢必會增長,即便如此,為了提高AI半導體的處理能力,TSMC、三星電子都在發展微縮化。此外,雖然必須要增加核數,但其成本的增長會遠遠超過微縮化花費的成本。然而,能解決以上問題的方案就是“Chiplet”。
Chiplet可以控制因核數增加帶來的高昂成本
下圖9是用於AMD服務器的處理器“EPYC”。“EPYC”是擁有32核的CPU,如果用一顆芯片來做的話,就會像圖9左邊一樣,芯片面積達到777mm2。按照Chiplet的方法來處理這顆大型芯片的話,就會像圖9右側一樣生成四份,再連接。分成四份後各個芯片的面積為213mm2,213*4=852mm2,比分割之前更大,即使把多出的面積去掉也比分割前更有優勢。(下圖10進行説明)
圖9:將32核的處理器分為四份的AMD的EPYC。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
下圖10的橫軸為芯片面積,縱軸為良率,藍色線條可以看做是量產初期時的良率(缺陷密度為1個/cm2),另一方面,橙色線條可以看做是改善了量產工藝後穩定生產時的良率(缺陷密度為0.22個/cm2)。
圖10:芯片面積和良率的關係。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
那麼,用一顆芯片生產EPYC的情況下,量產初期的良率僅有4%,即使優化工藝流程,良率也僅為26%。
而被分為四份的EPYC(213mm2)在量產初期的良率為21%,優化工藝流程、生產穩定時的良率達到了59%,即,分割後的芯片的量產初期良率是分割前的5.3倍,穩定時的良率是分割前的2.3倍。
在這種條件下,1顆晶圓可以做出多少個EPYC呢,在下圖11中進行説明。用一顆面積為777mm2的芯片來生產EPYC的話,一顆晶圓可生產出約69顆芯片,由於生產穩定時的良率為26%,因此實際可獲得的芯片數量為69*26%=17顆。
另一方面,分成四份後的芯片面積為213mm2,那麼一顆晶圓可產出273個芯片,假如生產穩定時的良率為59%,可獲得的芯片數量為273*59%=161個。由於四個組成一個芯片,因此實際可做出161/4=40個EPYC。
圖11:芯片面積與從晶圓上獲得的數量。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
綜上所述,用一個芯片(777mm2)來做的話,實際獲得的EPYC數量為17個,而分割為四份的話,可以多做出2.4倍的EPYC。反過來説,通過四分芯片,EPYC的成本也會降低1/2.4。
通過分割芯片來提高良率,結果降低了單顆芯片的成本。這是Chiplet的優勢之一,不過Chiplet的優勢不限於以上。
像樂高積木一樣的形成SoC
下圖12是AMD的第一代、第二代EPYC(用於服務器的處理器)的比較圖。第一代EPYC採用的是由4個14納米的芯片組成;在第二代中,橙色為用7納米制作的“處理器8芯”,藍色為用14納米制作的Input/Output(IO)芯片,將以上這些安裝在Interposer上,就製成了用於EPYC的處理器。
圖12:第一代EPYC和第二代EPYC的區別。(圖片出自:SE-Ho You (Samsung), “From Package-Level to Wafer-Level Integration”, IEDM2020, SC1)
要求最高的處理器採用了2019年當時最先進的7納米工藝,而I/O使用的不是那麼尖端的14納米,即不同的芯片選擇使用不同的合適工藝節點。
而三星的厲害“絕技”在下圖1,不使用Chiplet的情況下,如圖1左側所示,整個芯片必須由同一個技術節點製造。就利害而言,芯片面積越大,良率越低,那麼單顆芯片的成本也就越高(如上文所述)。除此之外,為了在同一個Mask上配置CPU、GPU、調制解調器、SRAM、Serdes/DDR,需要將精密的圖案與粗略的圖案混合,使製造工藝更復雜。
另一方面,在圖1的右側,各個產品都是按照其自身的功能來選擇合適的節點生產的,如GPU採用A節點、CPU採用B節點、SRAM採用C節點、I/O採用D節點,然後將它們安裝在一個Interposer 上。各種半導體模組就像樂高積木一樣堆疊在一起。
Chiplet擁有以上優勢。通過有序地配置CPU、GPU、DRAM等產品,從而進一步提高SoC AI的處理能力。
用HBM(High Bandwidth Memory)實現高速化
下圖13是搭載了GDDR5規格DRAM的傳統SoC和搭載了縱向壓層的HBM(High Bandwidth Memory,用TSV連接GDDR5)的SoC的比較圖。通過利用HBM,縱向縮短了1.6倍、橫向縮短了2倍、面積縮短了3倍。即,DRAM和SoC的合計佔用面積為1/3。可以説這也是是靈活運用Chiplet的一個事例。
圖13:搭載了HBM(High Bandwidth Memory)的SoC。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
下圖14是搭載了HBM(High Bandwidth Memory)的SoC的斷面圖,用TSV連接的DRAM經由邏輯芯片和Interposer,與SoC相連接。在需要高速處理的SoC的旁邊配有HBM,因此誕生了可以迅速傳輸數據的存儲半導體。
圖14:配置有HBM(High Bandwidth Memory)的SoC的斷面圖。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
下圖15是GDDR5和HBM 的Bus Width、Clock Speed、Bandwidth、動作Voltage的比較圖。GDDR5的Bus Width為32比特,HBM是其32倍,為1,024比特。結果,GDDR5的時鐘頻率(Clock Rate)為1,750MHz,HBM為500MHz,GDDR5的一顆芯片的Bandwidth為25GB/s,HBM的一個Block為100GB/s,是前者的4倍。
圖15:HBM(High Bandwidth Memory)的帶寬大小。(圖片出自:Greg Yeric, arm community, “Three Dimensions in 3DIC - Part I”, April 2, 2018)
總之,一個GDDR5就相當於在單行道上高速行駛的卡車,因此可傳輸的數據量是有限的,HBM的情況下,相當於四輛行駛在四車道上的卡車,一次傳輸的數據量也是前者的四倍。
如果運用HBM可以較好地使用Chiplet的話,那麼SoC AI也可以高速運行。終於解釋清楚了什麼是Chiplet以及其存儲半導體。那麼,在IEDM上,英特爾、三星、TSMC分別發佈了什麼呢?
在IEDM上,英特爾和三星發佈了尖端封裝技術
英特爾的Ravi Mahajan先生在“Advanced Packaging Technologies for Heterogeneous Integration(HI)”上,對尖端封裝進行了説明(如下圖16)。就Embedded Multi-Die Interconnect Bridge(EMIB)而言,分割處理器核(Processor Core)並生產以後,經由Interposer,再集成(Integration)、製成芯片。此外,就Foveros而言,經由TSV壓層不同的芯片,製成一顆芯片。最後獲得由EMIB和Foveros組合的Co-EMIB。
圖16:英特爾的3D封裝(EMIB、Foveros、Co-EMIB)。(圖片出自:Ravi Mahajan (Intel), “Advanced Packaging Technologies for Heterogeneous Integration (HI)”, IEDM2020, Tutorial2.)
下圖17是三星電子的SE-Ho You先生在From Package-Level to Wafer-Level Integration上發佈的資料。X-Cube指的是用TSV壓層不同的芯片,可以説相當於英特爾的Foveros。此外,經由Interposer連接了不同的芯片的I-Cube與英特爾的EMIB類似。此外,組合了X-Cube和I-Cube的X/I-Cube與英特爾的Co-EMIB非常類似。
筆者雖然不知道是三星電子還是英特爾率先研發了以上成果,但可以斷言二者是非常類似的。
圖17:三星的3D封裝(X-Cube、I-Cube、X/I-Cube)。(圖片出自:SE-Ho You (Samsung), “From Package-Level to Wafer-Level Integration”, IEDM2020, SC1)
TSMC在IEDM上的發佈內容
TSMC比三星、英特爾更早地採用了Chiplet的封裝方法。TSMC的KC Yee先生在IEDM的“Advanced 3D System Integration Technologies”上回顧了過去十年間Chiplet的歷史。(下圖18)
圖18:TSMC在IEDM上公佈的Chiplet。(圖片出自:KC Yee (TSMC), “Advanced 3D System Integration Technologies”, IEDM2020, SC1)
圖18的上半部分是被稱為CoWoS(Chip-on-Wafer-on-Substrate)的Chiplet技術,2011年被應用於Xilinx的FPGA。後來,又被應用於NVIDIA的GPU、AMD的CPU。
此外,圖18的下半部分是一種不使用TSV、經由Interposer連接芯片的Chiplet技術,被稱為InFO(Integrated Fan-Out)。圖18上雖然沒有註明,蘋果手機的處理器中採用了InFO技術。(下圖19)
圖19:TSMC的用於智能手機的3DSI(3D System Integration)。(圖片出自:KC Yee (TSMC), “Advanced 3D System Integration Technologies”, IEDM2020, SC1)
TSMC將此項技術命名為“3DSI(3D System Integration)”,也適用於高性能計算(High Performance Computing)方向的CoWoS(下圖20)。即,圖19 和圖20中出現的SoIC是“System on Integrated Chips using frontend 3D stacking process”的略稱,是以3D方式來堆疊芯片的技術。
從以上可得知,TSMC在Chiplet尖端封裝技術領域有十年的經驗,領先於英特爾和三星。
採用Chiplet的尖端封裝方式的未來展望
採用ASML製造的最尖端的EUV曝光設備,TSMC和三星才得以按照5納米、4納米、3納米、1納米的進程發展微縮化,但是,要提高AI半導體(用以解決成指數級增長的大數據)的處理能力,進靠增加核數、微縮化來提高核的吐出量還遠遠不夠。此外,提高微縮化、增加核數都會產生高昂成本。
為解決以上問題,必須要研發採用了Chiplet的尖端封裝技術,因此,TSMC、英特爾、三星都已經開始研發尖端封裝技術。如今,TSMC的尖端封裝技術領先於其他公司,半導體行業沒有固定的標準,可謂是百花齊放、百家爭鳴。
基於以上情況,採用的Chiplet的尖端封裝技術也許沒有像IRDS那樣的技術藍圖。因此,我們很難預測未來會出現什麼技術。
比方説,在此次的IEDM上,在TSMC的發佈結束後,CEA Leti的C.Fenouillet-Beranger先生在“3D sequential integration: Opportunities, Breakthrough and Challenge”上提出了一項非常有意思的尖端封裝技術的概念。(如下圖21)
圖21:3D 3D System Integration的未來。(圖片出自:C.Fenouillet-Beranger (CEA Leti), “3D sequential integration: Opportunities, Breakthrough and Challenges”, IEDM2020, SC1)
當下,如圖21的左邊所示,融合存儲半導體(HBM)、各種邏輯半導體並安裝在一顆Interposer上,構築SoC。下一個階段是利用TSV將存儲半導體和多個邏輯半導體縱向堆疊,合成一顆芯片。而且,在最後階段,會在存儲半導體內部連續嵌入多個邏輯半導體,即所謂的堆疊式“3D sequential”。
因此,牽引未來摩爾定律的不是微縮化(雖然微縮化已經做出了很大的貢獻),而是採用了Chiplet的尖端封裝技術。
此外,2月9日TSMC公佈説要在日本筑波市建設半導體後段工序的研發據點,期待能夠採用日本的材料、創造出先進的3D封裝技術。
即使先進封裝方式繼續發展,如果當下的數字存儲半導體、數字邏輯半導體無法適用的話,如下圖22所示,就需要轉為Neuromorphic Computing、Analog Computing、Quantum Computing等。