《華爾街日報》:美國製裁促使中國企業在無尖端芯片情況下推進AI發展
Karen Hao in Hong Kong and Raffaele Huang in Singapore
美國製裁正促使中國科技企業加速研發不依賴最新款美國芯片的尖端人工智能技術。
《華爾街日報》對研究論文的審閲及對相關員工的採訪發現,中國企業正在研究能以更少或性能較低的半導體實現最先進AI性能的技術。它們還在探索如何組合不同類型的芯片,以避免依賴單一硬件。
中國電信設備供應商華為技術有限公司、搜索引擎公司百度和電商巨頭阿里巴巴集團都在尋求從現有計算機芯片中榨取更多效用的方法。
研究人員和分析師表示,利用這些變通方案追趕美國AI領軍企業仍面臨重大挑戰。但他們指出,部分實驗已展現積極前景,若研究順利推進,中國科技企業既能抵禦美國製裁,也能增強對未來限制措施的韌性。
華為和百度拒絕置評。阿里巴巴未回應評論請求。
隨着類ChatGPT模型商業化競爭白熱化,全球企業都需要更強大的芯片,並尋求提升其利用率以降低AI開發的激增成本。
對中國企業而言,這一問題更為嚴峻:員工、AI研究人員及行業分析師表示,美國製裁已切斷其獲取英偉達等公司最先進芯片的渠道,而它們為開發本土版ChatGPT已快速消耗現有美國芯片庫存。
“從字裏行間可以明顯看出,他們正試圖尋找任何可用的計算資源,以彌補頂級硬件不足的短板,”Meta Platforms的人工智能研究員蘇珊·張表示,她專攻AI基礎設施和大語言模型領域。在AI行業中,“compute"指的是芯片組提供的計算能力總量。
中國最高決策機構上個月提出應鼓勵通用人工智能發展方面的創新。
自去年十月美國商務部對向中國供應芯片實施全面限制後,拜登政府已暗示可能實施進一步制裁。
中國企業被禁止獲得英偉達A100芯片——這是AI開發領域最受歡迎的芯片,以及今年三月發佈的算力更強的下一代H100芯片。
英偉達為中國市場專門開發了降級版芯片,分別命名為A800和H800以符合制裁要求。這兩款改良芯片都降低了芯片間的通信能力。
這些產品為開發小規模AI模型(如字節跳動短視頻應用TikTok推薦算法使用的模型)提供了有效替代方案。但這種性能限制阻礙了需要協調數百乃至數千枚芯片的大型AI模型開發。
美國對半導體出口的限制意味着中國的人工智能開發者無法再獲得業界青睞的英偉達A100芯片。圖片來源:Feature China/Barcroft Media/Getty Images在芯片制裁宣佈一個月後,OpenAI發佈了ChatGPT。這一發布引發了全球範圍內開發生成式人工智能的熱潮,這類能生成文本和圖像的軟件需要前所未有的計算能力來開發。瑞銀分析師估計,訓練這類大型AI模型需要5000至10000顆A100芯片。OpenAI未回應置評請求。
據一位與會人士透露,在近期一場閉門行業會議上,一家政府關聯半導體行業協會發布的調查顯示了供應受限情況:中國境內可用於訓練大型AI模型的A100芯片約4萬至5萬顆。該協會未回應置評請求。
知情人士稱,阿里巴巴、百度等中國企業在制裁前囤積了A100芯片,現已嚴格限制內部使用外國先進芯片,僅保留用於計算最密集的任務。
據《華爾街日報》此前報道,百度在文心一言發佈前暫停了包括自動駕駛部門在內所有團隊對A100的使用,以集中資源開發生成式AI產品。
根據開源研究論文和知情人士説法,百度近年嘗試將海光信息的DCU、華為昇騰AI訓練芯片及自研崑崙芯片納入AI開發。但部分人士指出,許多國產芯片在訓練大模型時仍存在可靠性問題,易出現系統崩潰。
據新加坡國立大學教授、高性能計算與人工智能技術公司HPC-AI Tech創始人楊友透露,目前中國企業正嘗試將三至四顆A800、H800等性能稍遜的芯片組合使用,以模擬英偉達高端處理器的運算能力。
今年四月發佈的新型計算集羣顯示,騰訊已採用英偉達H800芯片搭建了用於大規模AI模型訓練的互聯芯片組。
百度曾集中調配其儲備的A100芯片開發文心一言AI系統。圖片來源:TINGSHU WANG/REUTERS楊友指出這種方案成本高昂:若美國企業訓練大語言模型需1000顆H100芯片,中國企業可能需3000顆以上H800才能達到同等效果。
這促使部分企業加速研發跨芯片類型的大模型訓練技術。研究顯示,在硬件資源有限又亟需降本的中國科技公司裏,這類研究本已普遍。阿里巴巴、百度與華為已嘗試混合使用A100、英偉達前代V100/P100芯片及華為昇騰芯片的不同組合方案。
AI專家表示,美國企業鮮少採用多類型芯片方案,因其存在確保穩定運行的技術難題。Meta公司張女士稱:“這是萬不得已的選擇。”
與此同時,中國企業正通過多種軟件技術降低大模型訓練的計算強度——這種技術路線在全球範圍內(包括美國企業)加速發展。但研究論文表明,與美國企業不同,中國企業在綜合運用多種軟件技術方面更為激進。
儘管全球研究界仍在完善這些方法且實施難度較大,但中國研究人員已取得一些成功。
在3月的一篇論文中,華為研究人員展示瞭如何僅使用公司自研昇騰芯片(無需英偉達芯片)來訓練其最新一代大語言模型。研究人員在論文中寫道,儘管存在一些不足,但名為"盤古Σ"的模型在中文閲讀理解、語法挑戰等多項任務中達到了業界領先水平。
OpenAI去年11月推出的ChatGPT引發了全球開發生成式AI的熱潮。圖片來源:Clara Mokri/華爾街日報半導體研究與諮詢公司SemiAnalysis首席分析師Dylan Patel表示,若無法獲得英偉達H100芯片(該芯片具有特別有助於訓練類ChatGPT模型的性能增強功能),中國研究人員的困境只會加劇。
但百度與深圳鵬城實驗室去年聯合發表的論文顯示,研究人員正在採用一種無需依賴該功能的大模型訓練方法。Patel認為儘管研究尚處早期階段,但前景可觀。
“如果進展順利,他們就能有效規避制裁。“他説道。
聯繫Karen Hao請致信 [email protected],聯繫Raffaele Huang請致信 [email protected]
出現在2023年5月8日的印刷版中,標題為《中國AI製造商規避美國製裁》。