GPU王座動搖?ASIC改寫規則_風聞
半导体产业纵横-半导体产业纵横官方账号-探索IC产业无限可能。39分钟前
在ASIC市場,近日聽到的一些言論是相悖的。
“全球眾多ASIC項目中,90%會失敗”這句話來自英偉達CEO黃仁勳。
黃仁勳對於 ASIC 的評價並不算多。因此相關言論一出,市場上關於 ASIC 成長性的討論瞬間多了起來,各種猜測層出不窮。
黃仁勳表示,相較於英偉達主打通用GPU架構,ASIC專為特定任務打造,雖在單一用途上效能與效率極高,但缺乏靈活性與擴展性。這種“單點優化”策略,難以應對AI應用快速演進的現實。黃仁勳評價ASIC時並非否認其價值,而是強調“入場門檻與運維難度都很高”。他以谷歌TPU為例稱,其團隊是“全球最強ASIC團隊”,但即便如此,谷歌Gemini模型仍同時部署在英偉達GPU上。
但市場上另一種聲音同樣有依據——在 ASIC 的迅猛發展中,英偉達已嗅到危險的信號。
01
ASIC,趕超GPU?
在算力芯片市場,ASIC的“簇擁者”可並不算少。在ASIC芯片大廠、雲巨頭等助推下,AI算力市場正在迎來新的臨界點。
根據野村證券的最新報告,目前英偉達GPU佔 AI 服務器市場 80% 以上,ASIC 僅佔 8%-11%。
然而,從出貨量的角度來看,情況正在發生變化。到2025 年,谷歌的 TPU 出貨量預計將達到 150-200 萬台,亞馬遜 AWS Trainium 2 ASIC 約為 140-150 萬台,而英偉達的 AI GPU 供應量將超過 500-600 萬台。
供應鏈調查顯示,Google 和 AWS 的 AI TPU/ASIC 的總出貨量已經達到 Nvidia AI GPU 出貨量的 40%-60%。
隨着Meta 於 2026 年開始大規模部署其自主開發的 ASIC 解決方案,Microsoft 將於 2027 年開始大規模部署,預計ASIC 總出貨量將在 2026 年的某個時候超過英偉達 GPU 出貨量。
這也意味着,屬於ASIC的時代將正式到來。
OpenAI宣佈測試谷歌TPU的消息也進一步點燃市場熱情。據悉,人工智能(AI)技術大廠OpenAI 已開始租用谷歌的AI芯片,以支持旗下ChatGPT 和其他產品的計算需求。對此OpenAI回應稱,目前沒有使用谷歌自研芯片來驅動產品的計劃。
不過,OpenAI 發言人指出,雖然公司的AI 實驗室確實正在初步測試部分谷歌的TPU,但目前尚無計劃大規模採用。
目前,OpenAI 主要依賴英偉達的GPU以及AMD 的AI 芯片來滿足其日益成長的AI計算需求。為了降低對於英偉達、AMD的依賴,OpenAI 也正在開發自家芯片,計劃今年達成“tape-out”里程碑,即芯片設計完成並送交製造。
上一位採用谷歌TPU而引起轟動的是蘋果。去年7月,蘋果在官網的一篇論文中披露,其訓練模型採用了谷歌研發的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。
在去年之前,與英偉達GPU相比,谷歌的 TPU還像是一位“名不見經傳”的小將,如今看來,似乎已有實力與英偉達GPU展開一番較量。
但是在筆者看來,“ASIC芯片是否在未來有望碾壓GPU?”這更像一個偽命題。
02
ASIC,核心優勢
市場普遍認為,ASIC 芯片正成為 AI 芯片的重要分支。但是ASIC究竟以何種優勢給GPU帶來衝擊?以及具體帶來哪些衝擊,相關討論卻較少。
針對一系列問題,筆者將對此展開討論。
根據承擔任務的不同,AI芯片主要可以分為兩類,它們分別是AI訓練芯片和AI推理芯片。
2025年,全球AI推理算力需求呈現爆發式增長,特別是在端側應用場景中。這對於ASIC來説,也是一個契機。
首先説一下什麼是推理。
推理是“用已訓練好的模型處理數據” 的過程(比如用訓練好的圖像識別模型識別照片、用語音模型轉寫語音)。一旦模型部署,其算法邏輯(如 CNN 的卷積層、Transformer 的注意力機制)、計算流程(輸入輸出格式、精度需求)會長期固定,幾乎不需要調整。
這種“固定性” 正好匹配 ASIC 的核心優勢 ——為單一任務定製硬件架構:可以直接將推理算法的計算邏輯、數據路徑“固化” 到芯片中,去掉所有無關的通用計算單元(如 GPU 中用於訓練的動態調度模塊、通用內存控制器),讓硬件資源 100% 服務於推理計算。
同理,ASIC在訓練任務中的能力就相對弱一點。因為訓練任務算法迭代快,需求靈活。ASIC 若用於訓練,算法更新時,芯片面臨失效風險,性價比要低得多。
推理場景對“能效比”(每瓦功耗能提供的算力)和 “成本” 的敏感度遠高於訓練,而 ASIC 在這兩方面具有碾壓性優勢。
能效比方面,谷歌TPU v5e TPU的能效比是英偉達H100 的 3 倍。
成本方面,AWS的Trainium 2 在推理任務中性價比比 H100 高 30%-40%,谷歌的TPUv5、亞馬遜的 Trainium2 單位算力成本僅為英偉達 H100 的 70% 和 60%。
一個大模型可能只需要幾十到幾百張訓練芯片(如 GPU),但推理階段可能需要數萬甚至數十萬張芯片(比如 ChatGPT 的推理集羣規模是訓練集羣的 10 倍以上)。因此ASIC 的 “定製化” 設計可以降低單芯片成本。
VerifiedMarketResearch數據顯示,2023年AI推理芯片市場規模為158億美元,預計到2030年將達到906億美元,在2024-2030年預測期內的複合年增長率為22.6%。
當前的推理場景正呈現ASIC 與 GPU 共存競爭的格局,ASIC芯片市場空間巨大。
近日,博通CEO Hock Tan與CFO Kirsten Spears也在會議中強調,該公司AI推理領域的訂單顯著增加,該公司目前正與四個潛在的AI XPU客户緊密合作,計劃在今年為摩根大通認為的Arm/軟銀和OpenAI等主要客户完成第一代AI XPU產品的流片。
再看訓練市場的競爭態勢。AI訓練芯片市場,幾乎沒有幾家競爭者,英偉達一家就佔據了 AI 訓練市場 90% 以上份額,其 Blackwell 架構支持 1.8 萬億參數模型訓練,且 NVLink 6 技術實現 72 卡集羣無縫互聯。
上文提到,訓練任務的“靈活性” 與 GPU 架構天然契合,此外,英偉達通過CUDA 平台構建了難以撼動的軟件生態:90% 以上的 AI 框架(TensorFlow、PyTorch)原生支持 CUDA,開發者無需重寫代碼即可調用 GPU 算力。這種生態慣性使得即使 AMD、華為等廠商推出性能接近的訓練芯片,用户遷移成本依然極高。
有業內人士向半導體產業縱橫表示,模型架構的穩定性是 ASIC 發揮價值的核心前提——模型穩定時,ASIC 的低成本、高效能優勢能充分釋放;模型快速迭代甚至出現革命性變革時,ASIC 容易因適配滯後而失效。
這也是為什麼業內一些專家將ASIC市場規模爆發的節點指向2026年。ASIC 的設計週期長達 1-2 年,而 AI 模型迭代速度極快(如大模型從 GPT-3 到 GPT-4 僅用 1 年)。若 ASIC 設計時錨定的模型過時(如 Transformer 替代 CNN),芯片可能直接失效。
而如今隨着大模型的發展,算法初步固化。再加上ASIC成本的持續下探,它也便有了更好展示自己的舞台。
至於ASIC是否會替代GPU?在筆者看來這個問題為時尚早。
短時間內看,ASIC 和 GPU 的競爭,本質是 “效率” 與 “靈活性” 的權衡,二者暫時並非互相替代關係。ASIC 在特定場景的優勢,無法打破 GPU 的生態壁壘;而 GPU 的通用性,讓它在複雜任務中難以被替代。未來,兩者會藉助混合架構(如 GPU + ASIC 加速卡)和異構計算(如 CUDA 與定製指令集協同),實現資源最優配置。
未來隨着 AI 市場的發展,究竟需要何種芯片,尚難定論。
03
芯片龍頭,紛紛切入ASIC
除了谷歌,國內外均有多家AI芯片公司選擇擁抱ASIC。
Meta
Meta的核心算力負載來源於推薦系統場景,具備自研強調專用性的ASIC芯片的土壤。
Meta於2023年和2024年分別推出MTIA V1和MTIA V2芯片。此外,Meta還計劃2026年推出MTIA V3芯片,預計將搭載高端HBM,與V1/V2芯片專注於廣告與社交網絡等特定任務不同,有望擴展應用至模型的訓練與推理任務。
亞馬遜AWS
AWS在AI芯片的佈局主要包含推理芯片Inferentia和訓練芯片Trainium兩大系列。
自2020年以來,亞馬遜發佈了三代Trainium芯片。其中Trainium3性能或較上一代提升2倍,能效提升40%,搭載該芯片的UltraServers性能預計提升4倍。
微軟
2023年11月,微軟在Ignite技術大會上發佈了首款自家研發的AI芯片Azure Maia 100,以及應用於雲端軟件服務的芯片Azure Cobalt。兩款芯片將由台積電代工,採用5nm製程技術。
Cobalt是基於Arm架構的通用型芯片,具有128個核心,Maia 100是一款專為 Azure 雲服務和 AI 工作負載設計的 ASIC 芯片,用於雲端訓練和推理的,晶體管數量達到1050億個。這兩款芯片將導入微軟Azure數據中心,支持OpenAI、Copilot等服務。
下一代Maia v2的設計已確定,後端設計及量產交付由GUC負責。除深化與GUC的合作外,微軟還引入美滿電子共同參與Maiav2進階版的設計開發,以強化自研芯片的技術佈局,有效分散開發過程中的技術與供應鏈風險。
在國內ASIC芯片方面,華為和寒武紀表現突出。
華為海思旗下昇騰系列處理器自誕生以來,憑藉其強勁的算力和創新的設計,特別是昇騰910B,在技術和應用上都取得了顯著突破。
寒武紀作為國內AI芯片設計領域的佼佼者,在推理計算及邊緣設備AI加速方面市場競爭力日益凸顯。寒武紀的旗艦產品MLU590專注於AI訓練與推理。
在全球 AI 芯片競爭中,國產 ASIC 芯片既面臨挑戰,也迎來歷史性機遇。通過持續創新和技術突破,國產 ASIC 正逐步擴大市場份額。
04
ASIC芯片,兩大受益者
在ASIC市場,目前博通以55%~60%的份額位居第一,Marvell以13%~15%的份額位列第二。
博通在AI芯片領域的核心優勢在於定製化ASIC芯片和高速數據交換芯片,其解決方案廣泛應用於數據中心、雲計算、HPC(高性能計算)和5G基礎設施等領域。博通的ASIC芯片業務已成為其核心增長點。財報披露,定製AI芯片(ASIC)銷售額預計佔第二季度總AI半導體收入的70%,達308億美元(約合450億美元)。
目前,博通已與三家超大規模雲服務提供商(如谷歌、Meta、字節跳動)合作,並新增OpenAI、蘋果等客户,未來計劃擴展至七家大型科技企業。其中博通有兩個大合作備受關注:第一是Meta與博通已合作開發了前兩代AI訓練加速處理器,目前雙方正加速推進第三代MTIA芯片的研發,預計2024年下半年至2025年將取得重要進展。
Marvell的定製ASIC業務正成為其強勁增長的核心動力之一。Marvell的具體業務中,數據中心業務佔據75%左右,屬於高成長業務。這部分業務包括SSD 控制器、高端以太網交換機(Innovium)及定製 ASIC 業務(亞馬遜 AWS 等定製化芯片),主要應用於雲服務器、邊緣計算等場景。
根據公司交流及產業鏈信息推測,Marvell 當前的 ASIC 收入主要來自亞馬遜的 Trainium 2 和谷歌的 Axion Arm CPU 處理器,而公司與亞馬遜合作的Inferential ASIC 項目也將在 2025 年(即 2026 財年)開始量產。公司與微軟合作的 Microsoft Maia 項目,有望在 2026 年(即 2027 財年)。