同質化的GPU雲市場，誰能逃離內卷？_風聞

脑极体-脑极体官方账号-从技术协同到产业革命，从智能密钥到已知尽头24分钟前

2025-06-20

“一個聰明人從敵人那裏得到的東西，比從一個傻瓜朋友那裏得到的東西更多。”

——哲學家格拉西安

這句格言，正在AI領域被現實驗證。美國的限制政策總會告訴我們，哪些東西是發展AI至關重要的。

2024年10月，美國商務部再次升級制裁，限制中國實體訪問美國的雲服務，理由是“防止利用美國基礎設施訓練AI模型”。這標誌着美國對華算力基礎設施的“雙管齊下”：先斷GPU芯片，再封雲服務，最終目標是讓中國AI陷入算力斷崖。

有讀者會問，DeepSeek降低了單模型算力需求，把英偉達股價都打下來了，怎麼AI算力仍然短缺呢？

一方面是總量在增長。正如傑文斯悖論所説，技術進步降低了使用成本時，資源的總消耗量反而會增加。比如燃油效率提高了更省油，但隨着開車變得便宜，人們就會更多選擇開車，結果導致汽油的總消耗量增加。AI也是如此，模型門檻下降導致智能化應用多了，總算力需求也就更大了。

此外，還跟算力集羣的利用率有關。一位銀行總工程師分享到，自家搭建的混合異構算力平台，高峯期算力集羣利用率能達到60%就算優秀了，花大價錢採購的算卡資源，很多都被浪費或閒置了，加上配套系統與運維成本，整個資金投入非常大。

既然自建算力集羣買不到卡、成本高，從雲端獲取算力的GPU雲服務，就成了絕大多數企業用好、用活大模型的最佳選擇。

那麼，GPU雲服務作為AI算力的另一根支柱，中國準備好了嗎？

從雲端獲取算力，理想很豐滿，但現實很骨感。GPU雲服務還沒有被企業普遍接受。一位金融從業者就告訴我們，整個金融行業對GPU 雲的認知還比較模糊，大家習慣了傳統的硬件採購模式，對雲服務的接受度並不高。

為什麼不高？這有兩個原因：

一是同質化嚴重。對比市面上的GPU雲解決方案，會發現算力層、平台層都高度同質化，採用的GPU芯片大同小異，平台功能也差不多。以至於有人覺得GPU雲服務商提供的軟件沒什麼太大價值。結果就是GPU雲市場，目前的競爭主要是卷低價。

二是創新不足。同質化並不意味着GPU雲服務的痛點和挑戰都已經被解決了，實際上，同質化正是創新不足的表現。比如説，隨着大模型的參數規模擴大，一個千卡集羣的百P算力，訓一個類Sora大模型就被佔滿了，其他客户需要算力，就得擴大集羣規模，但AI芯片是很敏感的，從千卡到萬卡、超萬卡，故障率和運維難度也快速上升，怎麼保證集羣的穩定性，不能動不動就中斷重寫checkpoint？

花了大價錢買的GPU卡，結果有一半都在“摸魚”，怎麼讓資源管理更精益，投資不浪費？

算卡供應鏈的不穩定，很多集羣的架構不同、批次不同，無法合池訓練，存在資源牆怎麼打破？

國產芯片的適配難，新模型的訓練時長比英偉達方案多出好幾倍，一直沿用的訓練推理一體化流程，在異構算力環境下漏洞百出，又該怎麼辦？

不難看到，不是行業用户不想用GPU雲服務，而是市面上的解決方案都趨於同質化，過早開始卷價格。這種情況，與內卷化的定義異常契合。就像農業發展到一個確定形式之後，便停滯不前或無法向更高級轉化。

GPU雲市場，還處於方興未艾的發展初期，各行各業都需要上雲用算來進行AI訓推，有巨大的市場空間等待打開，不應過早跌入同質化、內卷化的泥潭。

但要打破內卷，就得拿出有壁壘的差異化解決方案，讓GPU雲算力真正降本增效，從而帶動企業用户的增長，以及整個GPU雲的產業升級，就像一塊耕地，通過優化種植技術和精耕細作，進一步提高糧食畝產量，從而避免捲入“穀賤傷農”的價格戰內卷。

向技術要答案，一直是百度的特點。AI時代，百度智能雲也憑藉AI基礎設施和技術能力在雲市場異軍突起，率先點亮了國產三萬卡GPU集羣，並且實現了幾乎無損的混合訓練能力，集羣利用率高達95%以上。憑藉GPU雲領域的突出能力，百度智能雲成為超半數央企的選擇。

我們就以百度智能云為例，拆解一下GPU雲逃離內卷的技術密碼。

破解GPU雲市場的內卷難題，必然要改變傳統集羣規模拓展難、故障率高、資源利用率低等問題，那就要從基礎設施下功夫。

具體來説，百度智能雲以技術為工具，對GPU集羣進行了三重改造。讓GPU集羣從小農經濟式的粗放經營，變成現代農場一樣的規模化、集約化、精益化生產模式。

第一重改造：規模化，釋放超萬卡集羣的澎湃算力。

“深度思考的大模型，業務用着不錯，下面要全集團推廣，你們儘快給算力擴容吧”，進入2025年，大模型上量成了IT人的一大挑戰。因為集羣規模擴大一倍，故障率能飆升好幾倍，而實際運算效率卻出現了邊際遞減。如果集羣是由不同城市的小規模集羣互聯來構建的，那資源性能損耗就更嚴重了，數據時延也會讓在線推理服務的體驗大打折扣。如果AI思考一次就得十幾分鍾，員工用起來不耐煩，CTO怎麼能不着急上火。

所以，百度智能雲在構建規模化GPU算力集羣，面臨的首要技術挑戰，就是如何提高集羣的穩定性，降低故障率，給性能調優。

解題思路，就是軟硬協同。有點類似於NVlink+ CUDA聯手，充分釋放N卡算力。那百度智能雲靠的就是百舸。百度百舸是專為AI計算設計的高性能算力平台，讓多個芯片、多個集羣都用“普通話”，實現跨芯片“交流”。

硬件資源層，百舸設計了一套新的物理網絡架構，就像是城市裏精心規劃的高效路線，新一代的HPN網絡規模上支持10萬卡，可同時容納十萬卡並行訓練，這就為計算資源的高效運行提供了有力保障，讓AI模型訓起來更快更穩定。

集羣組件層，百舸自研的集合通信庫BCCL，可以實現GPU、崑崙芯等標準RDMA設備的互聯互通，使得通信效果達到最優。以前沒有統一溝通方式的時候，不同芯片互不打通，常常出現混亂，那協同工作效率自然就很低了。BCC制定了一套統一的通行規則，就可以讓芯片高效協作，加上自適應並行策略搜索，自動規劃出最佳方案，就能讓各種硬件充分發揮作用，提升多芯混合訓練任務的整體效能。

訓推加速層，百舸在AI加速套件AIAK-LLM中構建了Accelerator抽象層，屏蔽硬件差異，相當於為多個集羣開闢高速路，快速通信，讓各種硬件都能充分發揮作用，高效協作，由此來構建極致規模、極致高密和極致互聯的GPU集羣。

想象一下，當企業使用萬卡、超萬卡集羣時，就像一個源源不斷供給養分的算力土壤，無論是金融機構處理海量交易數據，還是運行復雜的科學計算模型，或者是AI智能體即時響應客户需求，都能遊刃有餘。

目前，百舸已經具備了成熟的10萬卡集羣部署和管理能力，在橫跨幾十公里的集羣上，百舸可以把單一訓練任務的性能折損控制在4%以內，也讓百度智能雲成為GPU雲廠商中納管超大規模集羣的一個標杆。

第二重改造：精益化，PD分離讓AI應用隨時在線。

如今，企業對算力的需求發生了巨大轉變，從過去側重於模型訓練，逐漸轉向更注重即時性的推理和後訓練階段，有點像城市交通發展到了一定階段，新路（訓練）就建得少了，取而代之的是防止車流擁堵（推理優化）。

無論是B端用户還是C端用户，如果大模型思考十幾秒才給回應，用户都會不耐煩直接退出，這就是“首token延遲”。為了儘可能滿足用户“即時反饋”的嚴苛要求，就迫使模型廠商絞盡腦汁。不能忽略的是，算力基礎設施的優化，就像是把路鋪平、修上護欄，提升系統的處理能力和併發效率，從而讓在線服務像上高速一樣順暢運行，大大降低延遲率。

PD分離加速技術成為雲廠商們競相展示的“王牌”，而百度智能雲的PD分離式推理基礎設施，憑藉全局優化能力脱穎而出。

物理網絡層面，百度智能雲打造了HPN（High-Performance Network）高性能網絡集羣，擁有自適應路由算法，像智能導航一樣，避免了大規模數據傳輸時（如Alltoall）的流量集中問題。全新的拓撲結構，如同重新規劃的城市路網，降低通信瓶頸，使帶寬有效性達到90%以上，讓交換機轉發延遲大大降低，集羣傳輸又快又穩。

流量管理層面，百度智能雲自研的高性能KV Cache傳輸庫，為高優先級隊列預留帶寬，相當於“特殊車輛優先通行通道”；分層傳輸設計支持多層KV Cache複用，相當於潮汐車道，根據數據流量靈活調整傳輸通道，提升通行效率，並且訓推任務互不干擾，貨車轎車“各走各道”，實現了DCN彈性RDMA滿帶寬傳輸，讓數據高效流通。

通信組件層面，百度智能通過Alltoall算子優化和動態冗餘專家編排，優化計算流與通信流，確保集羣中所有GPU通信時間一致，顯著提升吞吐量和性能。

以往企業使用大模型時，常因算力瓶頸、數據傳輸慢等問題受限，如同灌溉管道不暢影響了養分輸送。而百度智能雲將網絡基礎設施、通信組件與上層業務深度融合，精心修建了一套高效的“算力管網”，可以讓數據、算力在不同業務場景間快速流動，能夠助力各行各業快速應用大模型，解決企業智能化轉型的當務之急。

第三重改造：多元化，一雲多芯築起算力可靠圍牆。

限卡又限雲，已經是美國遏制中國AI發展的明牌。完全依賴英偉達風險太大了，國際形勢變化頻繁，供應鏈隨時可能被卡脖子，企業構建算力集羣，不能押注在單一芯片，會考慮一雲多芯。但採購國產芯片分散風險，異構芯片納管與並行計算效率低，不同類型芯片之間協同工作困難重重，算力資源浪費嚴重。

在國內算卡供應緊張的當下，讓多樣化芯片能夠協同訓練，意義不用多説。“一雲多芯混訓”的能力，也讓百度智能雲成為多數企業GPU雲的選擇，比如長安汽車。

走進長安汽車智算中心，就像是一座算力工廠，依靠百舸平台與長安汽車自研的 “星環平台”，將算力資源發揮到極致。過去，服務器像低效運轉的老舊生產線，大量算力被閒置浪費。如今，百舸升級的智能調度系統，集羣平均算力使用率飆升至90%，綜合資源利用率提升50%。

再比如某個頭部城商行。對銀行來説，業務可持續性至關重要，如果用户訪問不了系統、辦不了業務是重大事故。既要自主可控的異構算力集羣，又要穩定可靠的服務保障，對城商行的基礎設施提出了巨大挑戰。該城商行與百度智能雲合作，通過異構平台在算力感知的情況下，進行統一調度，讓不同芯片不再“打羣架”，可以被混合管理、混合使用，從而兼顧了算力安全與業務穩定。

再到百度自建的國產崑崙芯 P800 大型單一集羣裏一看，資源利用率更是高達 98%，讓每一張GPU都物盡其用。

原來，單一服務器最多容納8張計算卡，而崑崙芯超節點技術可以將64張崑崙芯P800集中於單機櫃，並且通信效率堪比單一機型。跨集羣層面，百度百舸打通集羣內的網絡牆，實現異構芯片互聯互通。通過accelerator 抽象層，屏蔽底層芯片差異，通過統一接口實現異構芯片的“即插即用”；採用自適應並行工具，找到最優的切分策略，根據芯片性能自動分配任務，減少性能損失。最終實現了近乎無損的“萬卡級多芯混訓”能力。

在萬卡規模上，百舸可將兩種芯片混合訓練，目前一共支持 18 種以上芯片類型，徹底解決了一雲多芯混訓的複雜難題。

如今，經過規模化、精益化、多元化的三重技術改造，GPU雲已從零散低效的“算力作坊”，升級為高效精益的“現代農場”。百度智能雲也憑藉在GPU雲服務領域的卓越表現，成為頭部廠商中增速最快的雲服務廠商。IDC最新發布的《中國智算專業服務市場報告》中，百度智能雲憑藉AI解決方案實施服務，成為行業第一，領跑市場。

這説明，依靠技術創新，GPU雲廠商可以逃離內卷，為行業和客户創造差異化價值，讓GPU雲服務在企業級市場煥發出充沛的價值。

堅持“技術精耕”，百度智能雲走了一條向技術要效益、向技術要價值的良性發展之路。不僅讓其在GPU雲市場建立差異化競爭的壁壘，也為整個行業從粗放走向精益，從內捲走向高質量發展，提供了一個很好的參考樣本。

那我們不禁要問，為什麼百度智能雲能擺脱內卷的漩渦？是什麼讓百度智能雲有所不同？

一方面，是百度的技術基因，經過多年在AI領域的發展，百度及百度智能雲已經打造了一系列高度適配AI業務、具有獨特創新能力的“尖刀型”技術，有力地解決GPU雲集羣建設中的痛點與難點。

另一方面，是百度智能雲的發展路徑清晰，向技術要答案、不走內卷化之路的戰略選擇是明確的，這也決定了百度智能雲必須在技術上下苦功、登天梯。面對需求側的企業客户，以供給側的高質量GPU雲服務，回應AI規模應用的複雜算力需求；面對雲市場的競爭對手，以技術領導力帶動GPU雲產業的高質量發展，避免裸金屬的紅海價格戰，以百舸為核心的能力與服務，開拓更大的價值空間。

GPU雲的未來，不是卷“誰更便宜”，而是看“誰敢創新”。真正的技術領導者，將贏下這場AI算力革命的主導權。