避免美國製裁斷供,中企選擇「多GPU 混合」訓練AI模型_風聞
科闻社-科闻社官方账号-天助自助者50分钟前
近年來,美國政府對中國的技術限制愈加嚴格,尤其是在半導體和AI領域。2024年,美國更是吊銷了華為8張出口許可證,使得中國企業在獲取先進GPU等關鍵元件方面面臨巨大挑戰。為了應對這一局面,中國的AI公司紛紛開始探索新的技術路徑,試圖通過「多GPU混合」方法來提升AI模型訓練能力,規避制裁帶來的不利影響。

多GPU混合技術的核心在於利用多個來自不同供應商的GPU進行並行訓練。這種方法有以下幾個主要優勢:
提高訓練速度:通過多個GPU並行處理,AI模型訓練速度顯著提升。這對於訓練大語言模型(LLM)尤為重要,因為這些模型需要處理大量數據,訓練時間長且計算需求高。
優化資源利用:不同GPU的混合使用能夠更好地利用系統的記憶體資源,減少單一GPU的過載情況,提升整體計算效率。
降低成本依賴:多GPU混合技術使中國企業不再完全依賴昂貴的NVIDIA晶片,從而降低了整體成本。這對於在當前制裁環境下依然保持競爭力至關重要。
華為的升騰(Ascend)系列AI處理器是中國目前唯一可用的高性能AI晶片。然而,升騰910B晶片在產量方面遇到了一些問題,導致生產時間延長,價格也隨之上漲。儘管如此,華為依然是中國AI企業的重要供應商,其產品在國內市場上具有一定的影響力和份額。
隨着中美晶片大戰的加劇,中國市場上出現了針對NVIDIA AI GPU的地下走私網絡。然而,這些黑市供貨有限且價格昂貴,無法滿足大規模需求。面對這種局面,中國企業不得不更多地依賴本土晶片(如華為的產品)或使用未經許可的老一代GPU來解決供應問題。
目前,中國的一些主要科技公司,如百度和阿里巴巴,已經開始開發並應用「多GPU混合」技術。這種技術需要將不同的GPU晶片組成一個高效的訓練集羣,以應對複雜的AI模型訓練需求。然而,這一技術實現過程中也面臨諸多挑戰:
高速通訊架構:要實現多GPU混合,必須解決不同加速器之間的高效通訊問題。目前,NVIDIA的NVLink是業界公認的高效解決方案,但對於非NVIDIA的GPU,需要開發新的高速架構。
網絡架構選擇:阿里巴巴雲在實現多GPU混合技術時,選擇放棄了基於NVLink的架構,轉而使用基於乙太網的高性能網絡。這種選擇雖然解決了通訊問題,但在實現過程中可能面臨帶寬和延遲等技術挑戰。
儘管多GPU混合技術在實現過程中面臨諸多挑戰,但其潛在優勢使其成為中國AI企業應對美國製裁的有效途徑。未來,隨着技術的不斷發展和優化,多GPU混合有望在更大範圍內應用,助力中國AI產業在全球競爭中保持強勁勢頭。
同時,中國政府和企業需要繼續加大對本土半導體技術的投入,提升自主研發能力,減少對國外技術和產品的依賴。只有這樣,才能在複雜的國際形勢中立於不敗之地,實現真正的科技自主與創新。
*免責聲明:以上內容整理自網絡,僅供交流學習之用。如有內容、版權問題,請留言與我們聯繫進行刪除。