AI芯片的一些科普_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2020-05-07 11:06
來源:內容由半導體行業觀察(ID:icbank)原創,謝謝。
人工智能芯片包括圖形處理單元(GPU)、現場可編程門陣列(FPGA)和專門用於人工智能的特定應用集成電路(ASIC)。像中央處理器(CPU)這樣的通用芯片也可以用於一些更簡單的人工智能任務,但是隨着人工智能的發展,CPU的用處越來越小。
與通用CPU一樣,人工智能芯片通過集成大量越來越小的晶體管來提高速度和效率(也就是説,它們每消耗一單位能量就能完成更多的計算),這些晶體管運行速度更快,消耗的能量也更少。但與CPU不同的是,AI芯片還有其他AI優化的設計特性。利用這些特性可以極大地加速AI算法所需的相同的、可預測的、獨立的計算。包括並行執行大量計算,而不是像在CPU中那樣按順序執行;這些AI芯片在減少了相同計算所需的晶體管數量下,成功實現了計算精度需求較低的人工智能算法;加速內存訪問,例如,將整個AI算法存儲在一個AI芯片中;以及使用專門設計的編程語言來高效地轉換AI計算機代碼,以便在AI芯片上執行。
不同類型的人工智能芯片適用於不同的任務。GPU最常用於最初開發和改進AI算法;這個過程被稱為“訓練”。AI算法通常利用FPGA作為橋樑,被用於現實世界中的數據輸入。這通常稱為“推理”。ASIC則可以適用於訓練或推理。
AI芯片方面的一些知識
面向AI應用的專用芯片的趨勢是由兩個因素驅動的。首先,半導體功能的關鍵改進已從製造轉向設計和軟件;其次,對人工智能等應用的需求不斷增長,需要高度並行化,可預測的計算,這得益於專用芯片。深神經網絡(DNN)-負責最近人工智能突破的人工智能算法符合這項法案。
DNN通常實現一種稱為監督學習的機器學習,它涉及兩個計算步驟:基於訓練數據“訓練” AI算法(即構建算法)和執行訓練後的AI算法(即執行“推理”)以對新算法進行分類與訓練階段從數據中獲取的知識相一致的數據。
特別地,訓練步驟通常需要執行相同的計算數百萬次。如第IV(B)節所述,提高的晶體管密度允許在單個芯片上使用更多類型的專用電路。AI芯片將這一點發揮到了極致—芯片上大多數或所有晶體管的佈局均針對AI算法所需的高度可並行化,專門計算進行了優化。
儘管分析師對全球人工智能芯片市場規模存在廣泛分歧,ru 2018年的估計值介於50億至200億美元之間,但他們一致認為,市場增長速度將快於非人工智能專用芯片。直到最近,少數設計CPU等通用芯片的公司主導了邏輯芯片設計市場。他們享受着規模經濟,使他們能夠再投資於強大的新CPU設計。然而,摩爾定律的放緩正在損害CPU生產商的規模經濟;在摩爾定律驅動的CPU效率和速度增益克服專用芯片的好處之前,現在專用芯片的使用壽命更長。因此,CPU設計公司再投資於新設計以保持正在下降的市場支配地位。這一趨勢降低了芯片設計初創公司的進入門檻,特別是那些專注於專業芯片的公司。
人工智能芯片是一種常見的專用芯片,具有一些共同的特點。人工智能芯片並行執行的計算量遠遠大於CPU。他們還以一種成功實現人工智能算法但減少晶體管數量的方式以低精度計算數字
需要相同的計算。它們還通過將整個人工智能算法存儲在一個人工智能芯片中來加速內存訪問。最後,人工智能芯片使用專門的編程語言來有效地翻譯人工智能計算機代碼,以在人工智能芯片上執行。
雖然通用芯片特別是CPU包括少量流行的設計,但人工智能芯片更加多樣化。人工智能芯片在設計、適用的應用、不同人工智能任務的效率和速度、通用性和推理時的分類精度等方面有着廣泛的差異、
由於其獨特的特性,人工智能芯片在訓練和推理AI算法方面比CPU快幾十倍甚至幾千倍。最先進的人工智能芯片比最先進的CPU更划算,因為它們在人工智能算法上的效率更高。一千倍於CPU效率的人工智能芯片所帶來的改進相當於26年摩爾定律為CPU帶來的改進。
先進的人工智能系統不僅需要AI專用芯片,還需要最先進的AI芯片。較早期的人工智能芯片——帶有更大、更慢、更耗電的晶體管——會產生巨大的能源消耗成本,並可以迅速飆升至這種芯片無法承受的水平。正因為如此,如今使用較早期的AI芯片在成本和計算速度方面,都至少比最新的AI芯片大一個數量級。(成本增加,計算速度卻更慢)
這些成本和速度的動態變化,推動着先進AI芯片的繁榮——如果沒有最先進的AI芯片,則幾乎不可能開發和部署最先進的AI算法。即使使用最先進的AI芯片,訓練AI算法也可能花費數千萬美元,並且需要數週才能完成。實際上,在頂級AI實驗室中,總支出中有很大一部分用於與AI相關的計算。使用CPU等通用芯片,甚至使用較舊的AI芯片,進行這種訓練將花費更長的時間才能完成,並且相關的支出也會更多,這使得對AI算法的研究和部署無法進行下去。類似地,使用較不先進或較不專業的芯片進行推理也可能會導致類似的成本超支,並且需要更長的時間。
人工智能芯片的工作原理
相對於CPU來説,人工智能芯片通過特定技術來提高效率和速度。有關通用AI芯片的自上而下視圖和這些技術的圖形表示,請參見圖,這些技術將在下面的小節中詳細描述。
通用人工智能芯片
(1)並行計算
與傳統CPU相比,人工智能芯片提供的最重要的改進是並行計算能力,也就是説,人工智能芯片可以運行比CPU更多的並行計算。
對於DNN的計算是高度並行的,因為它們是相同的,並且不依賴於其他計算的結果。DNN訓練和推理需要大量獨立、相同的矩陣乘法運算,這反過來又需要執行許多乘法運算,然後求和,即所謂的“乘積” 運算。
人工智能芯片設計通常要在單芯片上具備大量的“乘法累加電路”(MAC),以有效地在一個大規模並行架構上執行矩陣乘法操作。並行計算也使AI芯片能夠比順序計算更快地完成任務。在並行架構中連接的多個AI芯片可以進一步提高並行程度。雖然先進的CPU具有一定程度的並行體系結構,但AI芯片實現了更大的並行性。
並行處理操作使用幾種技術,Data parallelism是最常見的並行形式,它將輸入數據集分為不同的“批”,以便在每個批上並行執行計算。這些批次可以跨AI芯片的不同執行單元或並行連接的不同AI芯片。數據並行性適用於任何類型的神經網絡。在各種各樣的神經網絡中,在訓練期間使用數百到數千批的數據並行性在不增加所需計算總數的情況下實現了相同的模型精度。然而,更多的批次需要更多的計算來實現相同的模型精度。超過一定數量的批次(對於一些DNN來説,超過100萬)增加的數據並行性需要更多的計算,而不會減少訓練模型的時間,從而限制有用的數據並行性。
Model parallelism將模型分成多個部分,在這些部分,計算在AI芯片的不同執行單元上並行執行,或者在並行連接的不同AI芯片上並行執行。例如,單個DNN層包括許多神經元,一個分區可能包括這些神經元的子集,另一個分區包括相同神經元的不同子集。有一種替代技術可以並行地對不同神經網絡層進行計算。
考慮到並行性的限制,通過更多的人工智能芯片並行擴展計算量並不是人工智能進步的可行策略,好的AI算法研究更加有意義,也是必要的,因為它允許更大程度的數據和模型並行,包括研究結合技術,以增加並行度。
(2)低精度計算
低精度計算,它犧牲了速度的數值精度和效率,特別適合人工智能算法。一個x-bit處理器由執行單元組成,每個執行單元都是用來操作由x-bit表示的數據的。晶體管存儲一個bit,其值可以為1或0;因此,x-bit值允許2 x 不同的組合。下表顯示了處理器數據類型的x的公共值。
數據類型
高位(Higher-bit)數據類型可以表示更廣泛的數字範圍(例如:一組較大的整數) 或在有限範圍內的更高精度的數字(例如:在0到1之間的高精度十進制數)。幸運的是,在許多人工智能算法中,訓練或推理也會執行,或者幾乎同樣地執行,如果一些計算是用8位或16位數據執行的,這些數據代表有限或低精度的數字範圍。即使模擬計算也足以滿足一些人工智能算法。這些技術工作的原因如下:
首先,經過訓練的DNN通常不受噪聲的影響,因此在推理計算中舍入數字不會影響結果;
第二,DNN中的某些數值參數事先已知的值僅在一個小的數值範圍內,準確地説是可以用低位數存儲的數據類型。
低位(Lower-bit)數據計算可以用包含較少晶體管的執行單元進行。這產生了兩個好處。首先,如果每個執行單元需要更少的晶體管,芯片可以包括更多的並行執行單元。其次,低位計算更有效率,需要更少的操作.. 一個8位執行單元使用比16位執行單元少6倍的電路面積和6倍的能源。
(3)內存優化
如果AI算法的內存訪問模式是可預測的,那麼AI芯片可以優化這些可預測用途的內存數量、位置和類型。例如,一些AI芯片包括足夠的
內存來存儲整個AI算法。與片外存儲器通信相比,片內存儲器訪問提供了更好的效率和速度改進。
當模型變得太大而無法存儲在單個AI芯片上時,模型並行性成為一個特別有用的工具;通過分割模型,可以在並行連接的不同AI芯片上訓練不同的部分。
相比之下,大多數CPU都是基於“馮諾依曼”設計,其中包括一個單一的中央總線——一個在CPU和存儲程序代碼和數據的單獨內存芯片之間共享數據的通信系統。考慮到總線的帶寬有限,CPU必須順序地單獨訪問代碼和數據,並經歷一個“馮諾依曼瓶頸”,其中內存訪問延遲阻止CPU通過高晶體管開關速度獲得更快的速度。
馮·諾依曼設計對於通用計算是有用的 ,但AI芯片不需要馮諾依曼設計或經歷馮諾依曼瓶頸。
(4)特定領域的語言
特定領域語言(Domain-specific languages :DSL)為在專用芯片上運行的專用應用程序提供了效率增益。
程序員以人類理解的方式,使用計算機語言編寫計算機代碼(即計算機看得懂的指令)。計算機程序稱為編譯器(或解釋器),然後將此代碼轉換為處理器直接可讀和可執行的表單。不同的計算機語言在不同的抽象層次上運作。
例如,像Python這樣的高級編程語言被簡化為人類可訪問性,但是Python代碼在執行時往往相對較慢,因為將人類的高級指令轉換為為特定處理器優化的機器代碼的複雜性很高。相比之下,在較低抽象級別上操作的C類編程語言需要更復雜的代碼(以及程序員的努力),但它們的代碼執行效率往往更高,因為更容易轉換成為特定處理器優化的機器代碼。然而,這兩個例子都是通用編程語言,其代碼可以實現各種各樣的計算,但不是專門為特定計算有效地轉換成機器代碼的。
相比之下,DSL是專門為專用芯片高效編程和執行的。一個值得注意的例子是谷歌的TensorFlow,它是DSL,它的代碼在AI芯片上運行的效率比任何通用語言都高。有時,DSL的優點可以通過PyTorch 這樣的專門代碼庫來實現:這些代碼庫將專門的AI處理器的知識打包在通用語言(例如Python在這種情況下)可以調用的函數中。
AI芯片類型
如上所述,人工智能芯片包括三類:圖形處理器(GPU)、現場可編程門陣列(FPGA)和專用集成電路(ASIC)。
GPU最初是為得益於並行計算的圖像處理應用而設計的。2012年,GPU開始被越來越多地用於訓練人工智能系統,到2017年,GPU佔據主導地位。GPU有時也用於推理。然而,儘管GPU允許可以比CPU有更大程度的並行,但它仍然是為通用計算而設計的。
最近,專用FPGA和ASIC在推理方面變得更加突出,因為與GPU相比,它們提高了效率。ASIC也越來越多地用於訓練。FPGA包括邏輯模塊(即每個模塊包含一組晶體管)其互連可以在製造後由程序員重新配置以適應特定的算法,而ASIC包括為特定算法定製的硬連線電路。領先的ASIC通常比FPGA提供更高的效率,而FPGA比ASIC更易於定製,並隨着人工智能算法的發展而促進設計優化。相比之下,隨着新的人工智能算法的開發,ASIC正變得越來越過時。
考慮到每個任務對芯片的不同要求,可以使用不同的AI芯片進行訓練和推理。
首先,不同形式的數據和模型的並行性適合於訓練和推理。因為訓練需要在與推理共享的步驟之上增加計算步驟。
其次,儘管訓練實際上總是受益於數據並行,但推理通常不會。例如,可以一次對單條數據執行推斷。然而,對於某些應用程序,可以並行地對許多數據執行推理,特別是當應用程序需要快速推斷大量不同的數據時。
第三,根據應用的不同,訓練和推理的效率和速度的相對重要性可能不同。對於訓練,效率和速度對於人工智能研究人員高效、快速地迭代研究項目都很重要。
對於推理,高推理速度可能是必不可少的,因為許多人工智能應用部署在關鍵系統中(例如,自動車輛)。或者不耐煩的用户(例如,對圖像進行分類的移動應用程序)需要快速、實時的數據分類。
另一方面,有效的推理速度可能存在上限。例如,推理不需要比用户對移動應用程序的反應時間更快。
推理芯片比訓練芯片需要更少的研究突破,因為它們比訓練芯片需要更少的計算優化。與GPU和FPGA相比,ASIC需要的研究突破更少。由於ASIC僅針對特定算法進行優化,設計工程師考慮的變量要少得多。
為了設計只用於一次計算的電路,工程師可以簡單地將計算轉化為針對該計算進行優化的電路。但是,要設計用於多種類型計算的電路,工程師必須預測哪種電路能夠很好地完成各種任務。其中許多是事先未知的。
人工智能芯片的商業化依賴於其通用功能的程度。GPU早已廣泛商業化,FPGA也是如此,只是程度較低。同時,由於高設計成本和專業化驅動的低容量,ASIC更難以商業化。然而,在通用芯片改進速度緩慢的時代,專用芯片相對更經濟。因為在下一代CPU達到相同的加速比或效率之前,它具有更長的使用壽命。在當前CPU進步緩慢的時代,如果一個AI芯片的速度提高了10-100倍,那麼只要1.5 - 8.3萬的銷量就足夠讓AI芯片變得經濟。預計人工智能芯片市場規模的增長可能會創造規模經濟,這將使越來越窄的人工智能ASIC有利可圖。
人工智能芯片有不同的等級,功能有強有弱。在高端,服務器級人工智能芯片通常用於高端應用的數據中心,在封裝後,比其他人工智能芯片更大。中端是消費者常用的PC級AI芯片。在低端,移動人工智能芯片通常用於推理,並集成到系統級芯片中,該芯片還包括一個CPU。移動系統芯片需要小型化才能適合移動設備。在每一個級別,人工智能芯片市場份額的增長都是以犧牲非人工智能芯片為代價的。
超級計算機與人工智能的相關性有限,但正在不斷增強。最常見的是,服務器級芯片分佈在數據中心,可以按順序執行,也可以在稱為“網格計算”的設置中並行執行。超級計算機採用服務器級芯片,將它們物理地放在一起並連接在一起,並增加了昂貴的冷卻設備以防止過熱。這種設置提高了速度,但大大降低了效率,對於許多需要快速分析的應用程序來説,這是一種可接受的折衷方案。目前很少有人工智能應用能證明更高速度的額外成本是合理的。但大型人工智能算法的訓練或推理有時非常緩慢,以至於只能使用超級計算機作為最後的手段。因此,儘管CPU傳統上一直是超級計算芯片的首選,但人工智能芯片現在正在佔據越來越大的份額。2018年,GPU承擔了全球新增超級計算機計算能力的大部分。
先進AI芯片的價值
領先的節點AI芯片對於高性價比、快速訓練和推理AI算法越來越必要。這是因為它們相對於最先進的CPU表現出效率和速度的提升和尾隨節點AI芯片。而且,效率轉化為芯片成本(芯片生產成本的總和)的總體成本效益。(即設計、製造、組裝、測試和封裝成本)。最後,許多計算密集型AI算法的訓練和推理的成本和速度瓶頸,使得AI開發者和用户需要最先進的AI芯片來保持在AI研發和部署方面的競爭力。
最先進的AI芯片的效率轉化為成本效益。
效率轉化為整體成本效益。對於trailing nodes,芯片運營成本(由於能耗成本)主導着芯片生產成本,並迅速膨脹到難以管理的水平。即使對於先進節點,運營成本也與生產成本類似,這意味着需要繼續優化以提高效率。
表2給出了一個CSET芯片生產和運行成本模型的結果,該模型針對的是與Nvidia P100 GPU類似規格的服務器級5nm芯片相同數量的90 - 5nm節點。這意味着5納米以上的芯片需要更大的表面積。對於5nm以上的節點,該模型可以等效地解釋為生產多個芯片,這些芯片的晶體管計數為一個5nm芯片。該模型採用無晶圓廠設計公司的視角,在2020年設計芯片,從台積電代工,然後在自己的服務器上運行芯片。這與谷歌等公司的做法類似。谷歌在內部設計TPU,將製造外包給台積電,然後在谷歌服務器上運行自己的TPUs,向外部客户提供人工智能應用程序或雲計算服務。
費用細分如下。代工廠支付的代工銷售價格包括資金消耗(即建廠和收購中小企業的成本)、材料、人工、代工研發和利潤率。無晶圓廠的公司還會額外增加芯片設計成本。製造完成後,外包的半導體和測試公司對芯片進行組裝、測試和封裝(ATP)。代工銷售價格、芯片設計成本、ATP成本之和等於每片芯片的生產總成本。無晶圓廠的公司在操作芯片時也會產生能源成本。我們根據每千瓦時0.07625美元的電力成本來估算能源成本。
表2:不同節點的芯片成本,等效晶體管數量為5nm
首先,在不到兩年的時間內,運營一款先進節點的AI芯片(7或5nm)的成本超過生產所述芯片的成本,而運行尾部節點AI芯片(90或65nm)的累積電力成本是生產這種芯片的成本的三到四倍。圖2顯示了連續使用長達三年的總芯片成本:每個芯片的總生產成本在第0年增加。隨後每年增加使用該芯片的年度能源成本。這些結果表明,在計算生產和運營時,先進節點AI芯片的成本效益是落後節點AI芯片費用的33倍。同樣,由於先進節點AI芯片的效率比先進節點CPU高出一到三個數量級(表1),我們預計,在計算產量和OPE時,先進節點AI芯片的成本效益也比先進節點CPU高出1到3個數量級。
圖2:不同節點的AI芯片隨時間變化的成本
其次,生產和運行5nm芯片的成本需要8.8年才能達到運行7nm芯片的成本。8.8年後,7nm和5nm芯片更便宜。因此,只有當預期使用5nm節點芯片8.8年時,用户才有動力更換現有的7nm節點芯片(假設它們不會發生故障)。圖2顯示了90 nm和5 nm之間的節點間比較。
我們發現,這些成本變得相等的時間段增加了,在7nm與5nm的比較中,成本急劇增加。公司通常會在運營三年後更換服務器級別的芯片,這與最近引入新節點的時間框架是一致的,依賴先進節點芯片的公司在新推出的節點芯片一上市就立即購買。然而,如果公司開始購買5nm節點芯片,他們可能期望更長時間地使用這些芯片。這將構成一個市場預測,即摩爾定律正在放緩,3nm節點可能在很長一段時間內不會推出。
圖3:節點轉換經濟性
計算密集型人工智能算法受到芯片成本和速度的瓶頸制約。
人工智能公司在人工智能相關計算上花費的時間和金錢已經成為人工智能發展的瓶頸。鑑於先進節點AI芯片比落後節點AI芯片或先進節點CPU更具成本效益且速度更快,因此這些AI實驗室需要先進節點AI芯片來繼續推進AI進展。
**第一,人工智能實驗室DeepMind領先的人工智能實驗,**如AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar的訓練成本。估計每項費用為500萬至1億美元。一個成本模型顯示,AlphaGo Zero的訓練成本為3500萬美元。人工智能實驗室OpenAI報告稱,在2017年2800萬美元的總成本中,有800萬美元用於雲計算。將這些計算成本乘以30,用於trailing node AI芯片,或甚至更多用於先進節點CPU,會使這種實驗在經濟上變得不可行。一些人工智能公司的計算成本增長如此之快,可能很快就會達到成本上限。從而需要最高效的人工智能芯片。
**其次,領先的人工智能實驗可能需要幾天甚至一個月的時間進行訓練。**雖然部署了關鍵的人工智能系統,但通常需要快速或實時推理。通過使用trailing node的AI芯片或引導節點的CPU來增加這些時間,將使得AI研發所需的迭代速度和部署的關鍵人工智能系統慢得令人無法接受。一家芯片速度較慢的公司可以嘗試通過並行使用大量速度較慢的芯片來支付巨大的能源成本以提高速度。但這一策略可能會失敗,原因有二。首先,正如附錄A 的A節所討論的,領先的實驗需要人工智能研究人員調整人工智能算法,以支持更多的數據和模型並行性。人工智能研究人員可以在有限的程度上做到這一點。但如果試圖並行使用比目前領先的人工智能實驗所使用的更多數量的人工智能芯片,可能會面臨困難。另一方面,即使在算法上可行,這種並行也需要互補的軟件和網絡技術來實現。並行擴展數百或數千個GPU是極其困難的,如果擴展更大數量trailing node的GPU,可能會比以及當前的能力。
新的Cerebras晶圓級引擎芯片為網絡技術提供了一個有趣的潛在解決方案。它是第一個晶圓級芯片,比其他任何人工智能芯片的表面積都大得多。這意味着可以在單個芯片上實現很大程度的並行性,減少多個芯片之間對先進網絡技術的需求。
對這一分析的警告是,最近的一些人工智能突破並不需要大量的計算能力。此外,正在進行的研究是開發需要最少訓練的人工智能算法(例如"幾次射擊"學習技術)。對於這些人工智能算法,將小成本或速度乘以大數字仍可能產生小成本或速度。
美國和中國的AI芯片競爭
最先進的AI芯片對於高級AI系統是必不可少的。美國及其盟國在生產與AI芯片相關的半導體領域中具有競爭優勢。美國公司主導着AI芯片設計,其中包括用於設計芯片的電子設計自動化(EDA)軟件。中國的AI芯片設計公司落後於美國,他們需要依靠美國EDA軟件來設計其AI芯片。
美國,中國台灣和韓國公司控制着大多數可以製造最先進的AI芯片的晶圓代工廠(“ fabs”),儘管一家中國公司最近獲得了一小部分市場佔有率。但是,中國的AI芯片設計公司大都將製造外包給了非中國大陸的fab,因為它們的產能更大,而且製造質量更高。
領先的節點AI芯片的成本效益和速度從政策的角度來看很重要。美國公司主導了人工智能芯片的設計,而中國公司在人工智能芯片設計上遠遠落後,依賴美國EDA軟件設計人工智能芯片,需要美國和盟國的中小企業和晶圓廠根據這些設計製造人工智能芯片。最先進的人工智能芯片的價值,加上它們的供應鏈集中在美國及其盟國,為美國及其盟國提供了一個槓桿點,以確保人工智能技術的有益開發和採用。
美國公司NVIDIA和AMD壟斷了全球GPU設計市場,而中國最大的GPU公司景嘉微電子開發的GPU速度非常慢。同樣,美國公司Xilinx和英特爾主導了全球FPGA市場,但中國領先的FPGA公司還有很長的一段距離。
在人工智能ASIC市場,特別是推理市場,分佈着較多廠商,因為ASIC和推理芯片更容易設計,進入門檻較低。與GPU和FPGA不 同,活躍在AI領域的公司,如谷歌、特斯拉和亞馬遜,已經開始為自己的AI應用設計專用的AI芯片了。谷歌的TPU是一個典型例子。英特爾也在開發性能強大的專用AI芯片,並聲稱這些ASIC的效率和速度分別實現了10,000x和1,000x的提升。
而在專用AI芯片領域具有競爭力的中國公司包括燧原、百度、阿里巴巴、騰訊、華為海思、寒武紀、雲天勵飛和地平線等。中國研究人員還製作了用於高端研究的ASIC。然而,它們在很大程度上僅限於推理,不過,華為最近宣佈研發出了一款人工智能訓練ASIC。
可以看到,美國人工智能芯片設計公司的產品都在台積電(TSMC)、三星或英特爾製造,而製程都比較先進,以7nm、10 nm和16 nm為主。還有一點值得注意,美國GPU芯片使用的先進製程節點比FPGA和ASIC的要多,之所以如此,很可能是因為GPU的通用性強,具有更高的銷售量,從而可以攤平更先進製程的設計和製造成本。
專家對AI芯片使用先進製程節點的必要性存在分歧。EDA公司的一位高管説:“每個想做AI的人都需要7nm及更先進製程的性能、功率效率等因素。與此同時,香港應用科學技術研究所的一位半導體研究員則持不同觀點:“對於人工智能芯片,如果使用28nm製程工藝技術,而不是10nm或14nm技術,則製造成本就會低得多,如果使用先進製程,你就需要從零開始,花很多精力在數學模型、物理層和計算語言的研究上,而所有這些都需要投資,只有少數晶圓廠能夠製造接近最先進的AI芯片,如下圖所示,全球只有大約8.5%的晶圓廠產能可以用來製造接近最先進的AI芯片,目前,只有很少一部分產能可以製造最先進的AI芯片(圖中藍色部分),而用於製造最先進人工智能芯片的實際產能百分比很難計算,並且在逐年變化。
其次,中國AI芯片設計公司中,GPU和FPGA使用的是非先進製程節點,而ASIC既使用了先進節點,也使用了非先進節點。儘管中國在這些非先進節點上具有一定的本地製造能力,但中國的AI芯片設計公司仍然大多將這些製程節點芯片外包給了台積電,這可能反映了台積電的製造工藝更可靠。
這是因為中國大陸的先進半導體設備生產水平比較有限。另外,中國的人工智能芯片設計公司也依靠美國EDA軟件。因此,中國仍然要依賴美國及其盟友才能實現AI芯片生產。
中國已經在人工智能推理方面取得了巨大成功,因為中國擁有大量受過良好教育的工程師,他們非常適合在特定芯片上實現極佳性能的勞動密集型設計任務。然而,考慮到中國相對年輕的人工智能芯片設計行業,中國公司尚未掌握實現GPU和FPGA更大優化空間和更高複雜性所需的隱性知識(know-how)。
中國在AI芯片供應鏈的關鍵環節能力不足,包括芯片設計、EDA軟件、半導體制造設備和晶圓廠,這意味着美國及其盟國在生產領先的AI芯片方面保持競爭優勢。正如第七節所討論的,領先的人工智能芯片對於開發和部署先進的、與安全相關的人工智能系統來説,具有戰略價值。因此,保持這一優勢對美國及其盟國至關重要。
此外,美國,荷蘭和日本公司共同控制着晶圓廠使用的半導體制造設備(SME)的市場。但是,這些優勢可能會消失,尤其是在中國努力建設先進芯片產業的情況下。鑑於最先進的AI芯片對安全性的重要性,美國及其盟國必須在生產這些芯片時保護其競爭優勢。