馬斯克宣佈啓動全球最大AI集羣,集成10萬個英偉達H100 GPU
史岱君

7月23日,據國外媒體報道,馬斯克在其社交媒體上宣佈,旗下AI初創公司xAI已開始在位於田納西州的所謂孟菲斯超級集羣(training cluster)上進行訓練,號稱這是“全球最強大的AI訓練集羣”。

馬斯克在X平台的宣佈截圖華爾街見聞
據馬斯克介紹,這個集羣由100,000個液冷H100 GPU組成,這些芯片是英偉達去年開始提供的。
馬斯克還表示,該集羣在單個RDMA結構(即遠程直接數據存取結構)上運行。據思科介紹,這種結構可以在計算節點之間提供更高效、更低延遲的數據傳輸,而不會給中央處理器(CPU)帶來負擔。
馬斯克今年5月曾透露這一計劃 ,將英偉達H100串聯到一台巨型的超級計算機中,並稱其為“算力超級工廠”。
當時,馬斯克匆匆忙忙地開始了Supercluster的工作,需要購買英偉達“Hopper”H100 GPU。這似乎表明,當時這位科技大亨沒有耐心等待 H200 芯片推出,更不用説即將推出的基於 Blackwell 的 B100 和 B200 GPU。儘管預計較新的 Nvidia Blackwell 數據中心 GPU 將在 2024 年底之前發貨。

馬斯克新浪科技
xAI的目標是到2024年12月訓練出“按每項指標衡量都是全球最強大的AI”。馬斯克表示,孟菲斯超級集羣將為實現這一目標提供“顯著優勢”。
不過,據外媒表示,不要對這一時間節點報太大期望,因為馬斯克以公開提出並錯過許多項目(如全自動駕駛汽車、無人駕駛出租車產品Robotaxi和將人類送往火星)的最後期限而聞名。
馬斯克週一還表示,特斯拉將在明年小規模生產用於內部使用的Optimus機器人,並希望到2026年能大規模生產供其他公司使用。這比他之前承諾的時間表晚了。之前馬斯克宣稱到2024年底將在特斯拉工廠使用Optimus機器人,並在2025年交付給其他公司。
另外,Microsoft正在與OpenAI首席執行官Sam Altman(阿爾特曼)合作開發一個價值1000億美元的AI訓練超級計算機,代號為Stargate。如果這一項目取得成功,xAI的孟菲斯超級集羣可能不會長期保持全球最強大的AI訓練集羣地位。
心智觀察所研究員潘攻愚認為,馬斯克一直標榜特斯拉是一家人工智能和機器人公司。特斯拉大型工廠三班倒一刻不停地進行數據蒐集用於AI訓練,馬斯克需要近10萬塊H100用於特斯拉FSD自動駕駛服務,為下半年推出Robotaxi做準備。不過如此大量的採購有兩個挑戰,一個是能耗。目前H100全年總能耗已經超過了格魯吉亞等小國全年所有的電量;一個是從訓練到推理的跳躍,畢竟H100用於推理的性價比並不高,會造成很多算力的“通貨膨脹”。
目前,英偉達的股價正在走出另一波調整,馬斯克的最新言論為其注入一針強心劑。截至當地時間22日美股收盤,英偉達上漲4.76%,特斯拉則上漲5.15%。

心智觀察所研究員呂棟指出,AI既是“暴力美學”,也是工程比拼,需要算力、算法、數據的深度融合與經驗積累。
一方面,隨着計算量不斷攀升,單卡算力角色弱化,大模型訓練亟需一個超級工廠,即“大且通用”的加速計算平台,以縮短訓練時間,實現模型能力的快速迭代。隨着大模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集羣已成為競賽入場券。
另一方面,建設萬卡或超萬卡集羣並非一萬張GPU卡的簡單堆疊,而是一項高度複雜的系統工程。算力集羣不是一個計算GPU,怎麼把它組織成算力網絡,相互之間通訊效率怎麼提高,怎麼實現MFU(算力利用率)達到60%的最優目標,這些都要靠網絡通訊、計算、存儲一起來解決。只有軟硬件結合,把整個集羣算力發揮到最高,才能實現1+1>2的效果。
另外值得注意的是,在比拼算力和算法之外,如何將人工智能基礎設施化,賦能全行業,中國正在做人工智能賦能實體經濟的道路探索。
中國工程院院士、中國科學院計算技術研究所所長孫凝暉認為,算力基礎設施的中國方案需要具備“兩低一高”,即在供給側,大幅度降低算力器件、算力設備、網絡連接、數據獲取、算法模型調用、電力消耗、運營維護、開發部署的總成本,讓廣大中小企業都消費得起高品質的算力服務,有積極性開發算力網應用;在消費側,大幅度降低廣大用户的算力使用門檻,面向大眾的公共服務必須做到易獲取、易使用,像水電一樣即開即用,像編寫網頁一樣輕鬆定製算力服務,開發算力網應用。在服務效率側,中國的算力服務要實現低熵高通量,其中高通量是指在實現高併發度服務的同時,端到端服務的響應時間可滿足率高;低熵是指在高併發負載中出現資源無序競爭的情況下,保障系統通量不急劇下降。保障“算得多”對中國尤其重要。
當前,中國也正在掀起建設萬卡集羣的熱潮,像華為、中國移動、摩爾線程等廠商都在佈局萬卡集羣。