3萬億芯片公司,也在夾縫求生?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。21分钟前
英偉達又打算給中國市場出特供AI芯片了。
據路透社的最新報道,知情人士稱,英特爾正在為中國市場開發一款新旗艦 AI 芯片,該芯片滿足當前美國出口管制的要求,國內英偉達特供芯片陣容中再添一員。
值得一提的是,英偉達在今年3月發佈了“Blackwell”系列,預計將於今年晚些時候量產,根據英偉達的説法,B200 在某些任務上的速度比其前代產品快 30 倍,以此成為目前最頂級的AI芯片之一。
這款新的特供旗艦芯片與B200也不無關係,消息人士稱,英偉達將與其在中國的主要分銷合作伙伴之一浪潮集團合作,推出和分銷這款暫定名為“B20”的芯片,從命名來看,其可能具備了B200的一部分特性。
算上這款B20,在短短1年多時間裏,英偉達已經給中國市場推出七八款特供芯片了。
A800和H800
2022年10 月 7 日,美國政府宣佈了一系列出口管制措施,其中包括切斷某些半導體芯片和芯片製造設備對中國的供應。
其中除了影響光刻機等生產設備外,還限制了中國獲得先進製程下的高算力、人工智能芯片,既包括禁止英偉達、AMD等美國公司向中國銷售此類芯片,也包括限制中國人工智能芯片公司在美國技術下的海外Fab廠進行流片等。
在這一出口限制下,英偉達和AMD都受到了波及。
英偉達在限制出台後表示,該禁令影響了其旨在加速機器學習任務的 A100 和 H100 芯片,可能會妨礙2022年將發佈的旗艦芯片 H100 的開發完成。其指出,當季度受影響芯片在中國的銷售額已達 4 億美元,如果中國公司決定不再購買英偉達的替代產品,那麼這筆錢就會白白流失。
那麼美國的出口限制具體是怎麼限制英偉達芯片的呢?
根據美國商務部2022年10月7日文件中對先進計算集成電路的出口限制規則(ECCN 3A090 和 4A090),管制物品清單需要滿足以下的幾個條件:
a. 除易失性存儲器外,所有輸入和輸出的總雙向傳輸速率達到或可編程達到 600 GB/s 或以上的集成電路,以及下列任何一種集成電路:
a.1. 一個或多個執行機器指令的數字處理器單元,其每個操作的位長乘以以 TOPS 為單位的處理性能,所有處理器單元的總和為 4800 或以上;
a.2. 一個或多個數字"原始計算單元"(不包括協助執行與計算 3A090.a.1 的 TOPS 有關的機器指令的單元),其每次運算的位長乘以所有計算單元合計的 TOPS 處理性能為 4800 或以上;
a.3. 一個或多個模擬、多值或多級 “原始計算單元”,其處理性能以 TOPS 乘以 8 計算,所有計算單元合計達到或超過 4800;
a.4. 數字處理器單元及 “原始計算單元 “的任何組合,其按3A090.a.1、3A090.a.2及3A090.a.3計算的總和達4800或以上。
3A090.a.所述的集成電路包括圖形處理單元(GPU)、張量處理單元(TPU)、神經處理器、內存處理器、視覺處理器、文本處理器、協處理器/加速器、自適應處理器、現場可編程邏輯器件(FPLD)及專用集成電路(ASIC)。
不難看出,其中最重要的,就是對芯片互聯速度的限制,按照這一規定,英偉達當時熱賣的A100精準地落入了限制範圍內,它的芯片間傳輸速率達到了600GB/s,從某種程度上看,或許美國商務部就是根據A100來指定這項限制措施的。
為了應對出口管制,英偉達以迅雷不及掩耳之勢,火速閹割出了一個A100的替代品——A800,美國禁令正式發佈是在2022年10月7日,而一個月後,英偉達就拿出了適應新規的A800,可謂是古有因地制宜,今有因策制宜。
根據規格,NVIDIA A800 將採用與 Ampere A100 GPU 相同的芯片架構。它將提供三種版本,兩種 PCIe 版本分別為 40 GB 和 80 GB,以及80 GB的SXM 版本,這些 GPU 將提供高達 9.7 TFLOP 的 FP64、19.5 TFLOP 的 FP64 Tensor Core、19.5 TFLOP 的 FP32、156 TFLOP(稀疏性為 312 TFLOP)TF32、312 TFLOP(稀疏性為 624 TFLOP)BFLOAT16 和 624 TOPS(稀疏性為 1248 TOP)INT8 性能。40 GB 版本具有高達 1.555 TB/s 帶寬的 HBM2 內存,而 80 GB 版本具有高達 2 TB/s 帶寬的 HBM2e。
當然帶寬上為了滿足限制需求,無可避免地捱了一刀,從原來的600GB/s砍到了400GB/s,英偉達發言人在給路透社的一份聲明中表示:“A800 GPU 於第三季度投入生產,是中國客户可替代 A100 GPU 的另一種產品,A800 符合美國政府關於減少出口管制的明確測試,並且無法通過編程超越該標準。”
CCS Insight 分析師 Wayne Lam評論道:“A800 看起來是重新包裝的 A100 GPU,旨在避開近期商務部的貿易限制”,同時他指出 8 在中國是一個幸運數字。
“中國是英偉達的一個重要市場,重新配置產品以避免貿易限制具有充分的商業意義,”Lam 表示,他表示,對於使用數千個芯片的數據中心來説,A800 的芯片間通信能力明顯下降。
在隨後的H100上面,英偉達如法炮製,搞出了H800。在 A100 上,英偉達Nvidia 將 GPU 的 600 GB/s互連降至 400 GB/s,其對 H100 採取了相同的做法。據透露,H800 的芯片互聯速率降低到 H100 的一半左右,也就是從800 GB/s降低到400 GB/s。與A800 相比,H800性能的影響更大,畢竟前者只是降低33%,後者降低了整整50%。
在當時,英偉達發言人拒絕透露針對中國市場的 H800 與 H100 有何不同,只是説“我們的 800 系列產品完全符合出口管制規定”。
在海外廠商瘋狂採購A100和H100的時候,國內廠商只能選擇配置更低的H800和A800,英偉達的特供版芯片一定程度上限制了國內AI大模型的發展。
H20和RTX 4090D
對於國內公司來説,A800和H800有好有壞,壞的是在割了一刀互聯帶寬後,這兩塊芯片的性能表現差了一點,訓練速度也變慢了不少,好的是它們都可以通過征程渠道訂購,只是相較於國外公司,在芯片上花費的成本會更高一些。
但A800和H800也沒活過一年。2023年10月17日,美國商務部發布了新的管制規則,對 2022 年 10 月 7 日發佈的針對先進計算集成電路、半導體制造設備以及支持超級計算應用和最終用途的物品的出口管制進行了補充更新。
其中最主要的部分是控制參數的變化,暫行最終規則刪除了“互連帶寬”作為 ECCN 3A090 下識別受限芯片的參數,而是改為如果芯片超過 ECCN 3A090 中標定的兩個參數(3A090.a和3A090.b)之一,出口就會受到限制。
根據美國商務部的文件,修訂後的 3A090.a 管制參數將管制具有一個或多個數字處理單元的集成電路,而這些單元的“總處理性能”需要在4800 或以上,或“總處理性能”為 1600 或以上,而“性能密度”為 5.92 或以上。新的 ECCN 3A090.b 將管制具有一個或多個數字處理單元的集成電路,這些單元必須具備以下條件之一:“總處理性能”為 2400 或 2400 以上但小於 4800,“性能密度”為 1.6 或 1.6 以上但小於 5.92,或“總處理性能”為 1600 或 1600 以上,“性能密度”為 3.2 或 3.2 以上但小於 5.92。
此外,規則還設定了一個許可例外情況,其為人工智能功能低於限制閾值的消費級 IC 創建了新的“許可例外通知高級計算”,該例外適用於兩種產品,一種是設計或銷售用於數據中心的芯片,第二種是並非為數據中心使用而設計或銷售的芯片,其“總處理性能”為 4800 或更高。
與 2022年10 月 7 日的規則相比,新規則再一次擴大了管制範圍,在總處理性能和性能密度的雙重規則之下,不管是沒閹割的還是閹割了的,統統被納入到了出口管制範圍,A800和H800受當其衝,而英偉達其他產品也受到了影響,面向推理市場的L40、L40S,以及消費領域的RTX 4090也被納入了禁售範圍。
這對於英偉達來説是一記重創,意味着當時英偉達在售的主流產品,都因出口管制而不能在中國銷售,要知道在往年,來自中國市場的數據中心業務收入貢約佔英偉達整體營收的20%至25%,而在2024財年第四季度,由於一紙出口管制,中國市場營收暴跌至個位數。
無奈的英偉達只能再度揮起砍刀。
2023年11月16日,也就是新規則發佈一個月後,英偉達又推出了特供中國市場的GPU芯片——H20、L20、L2,H20基於英偉達的Hopper架構,而L20和L2基於Ada架構。
其中L20和L2這兩塊芯片分別基於L40和L4進行了調整,由於是老架構,外加推理和訓練中並不常用,並沒有受到多少關注。而H20就比較有意思了,儘管由於新規不再限制互聯速度,其獲得了900GB/s滿血NVLink,但性能卻要打一個大大的折扣,據分析師Dylan Petal的意見,即使H20的實際利用率能達到90%,其在實際多卡互聯環境中的性能仍只能接近H100的50%。
而針對消費市場的RTX 4090,英偉達在去年12月也推出了平替——RTX 4090D,這款符合美國出口管制的特供芯片在 CUDA 內核和功耗兩個方面進行了閹割,CUDA 內核減少了 12.8%,功耗也從 450W 減少到 425W,降低了 5.9%,所有其他核心規格都保持不變。
由於主頻的略微提升,在一些基準測試中,4090D的性能僅比4090低了5%左右,對比AI芯片,這樣的差距似乎還在可接受範圍內。
2023年年底這一連四款特供芯片,一定程度上緩解了英偉達中國的尷尬,讓它不至於陷入無貨可賣的境地,但兩輪限制之後,大型企業和中小型公司,都開始另謀出路,要麼買國內芯片,要麼在海外組建服務器,要麼,通過非官方渠道來買H100/200和A100,無奈在國內廠商之中蔓延。
老黃的刀法
熟悉遊戲GPU的DIY玩家,對老黃的刀法不會感到太陌生。
拿比較近的例子來説,在RTX 20系列發佈一年後,為了更好地區分產品線,同時應對隔壁AMD的RX5000系列的新品上市,英偉達推出了RTX 20 Super系列。
雖然同樣是基於TU106和TU104核心,但是英偉達卻用這兩顆核心割出了五款顯卡,分別是RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super和RTX 2080,其中差距最小的就是同為TU106核心的RTX 2060 Super和RTX 2070,這兩者理論上的性能差距只有5%左右,實際跑分和遊戲測試也非常接近,可以説英偉達把閹割這件事玩到了極致。
如今英偉達修修改改拿出來的中國特供版芯片,也不過是舊事重演,重操舊業罷了。
除了我們在開頭就提到的B20,英偉達接下來還打算在消費市場一展刀法,據爆料,RTX 5090的縮水版RTX 5090D 預計將於 2025 年 1 月推出,預計將基於 Nvidia 的Blackwell 架構,採用台積電的 4NP 工藝,或在核心規格上有所縮減,從而規避美國的出口限制。
算上這兩塊傳聞中的芯片,英偉達在中國已經有一個龐大的特供陣容:A800、H800、H20、L20、L2、RTX 4090D、B20、RTX 5090D,
有人對這些特供版芯片前景頗為看好,研究機構 SemiAnalysis 估計,英偉達今年有望在中國銷售超過 100 萬塊 H20 芯片,價值超過 120 億美元。
但英偉達要擔心的事情還有很多。據Jeffries分析師的報告,當美國在10月份對半導體出口管制進行年度審查時,“很有可能”禁止英偉達的 H20 芯片向中國銷售,該分析師表示,禁令可能通過“特定產品禁令、降低計算能力上限和/或限制內存容量”來實施。
此外,像H20這樣人為製造出來的合規卡,本質上是基於既有核心的閹割,B20也是如此,原本可以用來做H200和B200的核心,現在只能拿來賣更便宜的特供版,而且銷售壽命很可能只有一年多,怎麼看都是一筆虧本買賣。
但英偉達別無退路,規則和市場這座天平,它只能竭盡自己所能來配平,只不過中國還有多少企業願意為割了又割的特供版芯片掏錢呢?