為千行萬業開算力通途,為什麼是百舸?_風聞
脑极体-脑极体官方账号-从技术协同到产业革命,从智能密钥到已知尽头26分钟前
2025,各行各業基於DeepSeek探索各自領域的落地方式,由此開啓了AI智能化加速的新航程。然而,大模型應用落地是一個系統工程,技術與資源門檻高,還存在大量未知挑戰。
面對不確定的海浪,具備全棧能力的雲基礎設施,成為企業追逐AI的可靠巨輪。
大模型對雲計算基礎設施的需求,與傳統雲計算存在顯著差異。比如大模型訓練需要萬卡級GPU集羣支持,且對多芯混合訓練效能和穩定性要求極高。傳統以CPU為中心的雲計算中心,需轉向以GPU為核心的智能算力架構,並實現算力資源的極致調度。
而百度智能雲與其他雲廠商最大的區別,就是一直是百度AI技術和業務的堅定支持者,常年在AI基礎設施上進行投入。上雲用大模型的需求爆發之後,百度智能雲迅速躋身中國大模型平台第一,領航AI雲市場。
這一成績的背後,離不開百度所有核心業務的算力底座——百舸異構計算平台。藉助百舸的大規模推理加速能力,以及自研崑崙芯P800芯片,百度智能雲實現了算力性能與成本的雙重突破。
就在昨天,4月25日召開的Create 2025 百度AI開發者大會上,百度正式點亮了崑崙芯P800的三萬卡集羣,發佈崑崙芯超節點。僅有高性能芯片和大規模集羣是不夠的,為了穩定、高效地釋放算力價值,百度智能雲也全面升級百舸推理加速能力。
雲計算的大船,正乘AI之風,揚時代之帆,迎來前所未有的增長機遇。這時候,有必要深入百舸內部,去窺探一下百度智能雲這艘AI巨輪的加速密碼。
為什麼破解算力短缺和計算成本高的問題,僅靠單體硬件和集羣還不夠,需要平台級的優化助力?
縱觀2025年的大模型算力格局,前有DS技術突破,算力需求激增;後有海外進口芯片供應持續不穩定,算力焦慮始終存在。多元異構芯片的混合訓練,成為國內緩解算力荒的一個選擇。但異構芯片之間的協議生態不同,合池訓練難度大,對雲基礎設施提出了挑戰。
首先,集羣規模更大,推理場景下快速定位故障並恢復,十分考驗超大規模集羣的穩定性。
此外,異構芯片多樣,國內超萬卡集羣多采用混合芯片方案,但不同架構合池訓練會出現性能損失。《AIDC白皮書》顯示,業界頂尖的千卡智算集羣,其算力利用率不超過60%,萬卡集羣不超過55%。提高國產集羣的資源利用率和算效,避免資源浪費,刻不容緩。
DeepSeek之後,儘快用上DS等大模型,成為企業的當務之急,雲基礎設施承載的AI任務大幅上量。一方面考驗雲基礎設施的敏捷性,是否支持在雲上快速構建和進行模型迭代,無縫集成AI開源生態,也需要調優技術的加持,從而帶來極致的推理性能優化,降低推理成本。
可以説,AI大模型深入千行萬業,上雲深度用AI的當下需求,進一步強化了多元異構計算平台的重要性和必要性。滄海橫流處,百度智能雲和百舸,已經做好了準備。
一場以AI為核心、多元異構算力為底座的雲技術競賽,就此拉開帷幕。百度智能雲率先點亮了崑崙芯萬卡集羣,今年Create大會上,又正式宣佈點亮3萬卡集羣。那麼,百度是如何解決多芯混訓問題的?百舸平台,是核心驅動。
百舸作為超大規模GPU算力平台,可以對算力集羣的AI-IaaS基礎資源進行調度,打造高性能AI基礎設施,支持高達10萬卡大規模集羣,提供穩定、極速、高效的算力服務,滿足企業的訓練、精調、推理的全流程需求。
如果把AI雲基礎設施看作一艘航船,那麼百舸的存在,可以發揮幾個作用:
作用一,支撐更大的算力船身。百舸平台不僅有更強的單節點性能,同時通過崑崙芯超節點(高密整機櫃),把卡放在同一個機櫃裏,用更快的機內通信替代機間通信,降低機櫃之間通信的複雜性、高延遲和帶寬成本,從而支持超大規模集羣建設。基於百舸,AI基礎設施可以納管的算力資源規模大,提供更加充沛、穩定的智能算力。
作用二,提供穩定的AI體驗。當計算機羣出現故障,每一次重寫checkpoint,都會給大模型的開發和企業平添波折。百舸平台通過智能調度與冗餘設計,實現99.5%有效訓練時長,以分鐘級故障恢復能力,減少中斷,確保AI任務連續穩定運行。
作用三,為AI任務加速的高效動能。類DeepSeek的長思維鏈推理模型,增加了思考環節,需要輸出的token更多,如果吞吐速度不夠快,用户就需要長時間等待,AI體驗很差。百舸的大規模分佈式PD分離推理系統,可根據不同的模型特點,選擇最優的並行策略,做到token級別的PD負載均衡,同時結合算子融合、all-to-all 通信算子優化、異步KV傳輸、雙流編排等技術進一步提升GPU利用率,推理成本節省95%,總吞吐提升20倍。同時,百舸還支持私有化部署。也就是説,無論是雲上調用推理模型,還是本地部署,百舸都可以保障高效即時的體驗。
可以説,在百舸平台的支撐下,百度得以打造堅固的異構算力底座,擁有了在大模型時代遠航的穩定推進力,在AI雲服務的競爭中處於領先身位。
開年以來,AI雲市場進入後DeepSeek時代,頭部雲服務商都在積極升級AI基礎設施及服務。百度能否長期保持AI雲的優勢,還取決於AI底座與產業的融合深度。
説到底,只有讓企業真正用上AI,用好AI,AI基礎設施及AI雲服務才能煥發出最寬廣的價值。
如何幫助千行百業高效地接入AI算力與模型,打造自己的AI應用?百度智能雲AI計算部負責人、百度傑出架構師王雁鵬認為,支撐AI應用的創新大爆發,基礎設施必須讓算力不再成為瓶頸,讓算力唾手可得。全新升級的百舸,就是百度智能雲交出的一份答卷,可以用三個字來概括:
全。王雁鵬提到,面對AI模型的爆發,敏捷的基礎設施能夠支持各種芯片、模型、框架以及工具鏈。全新升級的百度百舸算力平台,不僅提供高性能的計算、存儲、網絡的基礎資源產品,也提供了一鍵式全站AI工程開發平台以及各類工具集,能夠一鍵建設資源池,一鍵部署開發環境,一鍵部署模型,把GPU的利用率發揮到極致,為各類開源模型帶來顯著的加速效果。
作為企業級的一站式AI工程平台,百舸覆蓋AI大模型的全週期、全流程,可以縮短AI開發週期,對於金融、互聯網等追求效率、時間敏感、競爭激烈的行業來説,意義重大。比如百度智能雲攜手招行基於崑崙芯國產算力,接入開源模型,幫助招行快速提升了智能客服、多模態數據分析等場景的應用效能。
省。領先的AI工程硬核加速能力,也可以讓各領域開源模型訓推成本更低、週期更短、故障更少,能夠同時支持成百上千的各種任務不中斷,大幅節省了企業的時間和資源成本。北京人形機器人創新中心的通用具身智能平台,就依託百度百舸AI異構計算平台和穩定可靠的AI算力基礎設施,進行模型訓練,為人形機器人打造更聰明的“大腦”。
強。王雁鵬介紹到,把訓推系統的能力做到極致,充分壓榨出硬件的算力,是百舸一直以來追求的目標。百舸的原生AI-IaaS 對接和管理能力,可以發揮出基礎設施最大效能,性能更強。
最近,百舸針對多模態模型以及智駕模型做了深度優化,在多模態模型上取得了30%,在智駕模型上取得了150%以上的加速效果,助力更多行業、汽車企業等智能化降本增效。比如教育機構好未來,就藉助百舸的隊列超發能力,充分利用集羣閒時資源,整體資源利用率提升10%以上。
當一個企業打算落地應用大模型,百舸是一條更短、更省、更快的智能化航路。
在未知的海域中探索,望向技術遠方的星辰,才能走在正確的方向上。十多年來,AI指引着百度的航向,從未偏離航道,才能成為大模型時代AI與雲的領航人。
雲基礎設施+AI技術的優勢,讓百度智能雲在大模型時代快速增長,成為大量政企上雲賦智的首選。而百舸平台,也為緩解行業智能化的算力焦渴,發揮了關鍵作用。
早在百度押注AI、大模型、崑崙芯的時候,就知道必須把多元異構計算集羣掌握在自己手中,那麼百舸平台的出現,也就是水到渠成了。
進入2025年,國產大模型+異構算力,正在書寫智能中國的新篇章。我們已經從百舸身上,發現了百度繼續領航AI與雲時代的必要條件:
基礎設施完備。從崑崙芯,到百舸平台,AI算力基礎設施底座是百度業務AI重塑的基本保障。
進化動能強勁。高性能優化技術,降本增效,支撐百度大模型、AI應用等低成本高效迭代,持續進化,競爭力不斷增強,避免掉隊。
商業邏輯清晰。AI即服務、模型即服務的商業邏輯想要成立,必須持續優化token成本,帶給客户上雲用AI的真實價值,從而在用户規模和資源回報比上佔據優勢。憑藉百舸平台能力,新業務模式得以成立。
為千行萬業,開算力通途,屬於AI與雲的時代才剛剛開始。接下來,百舸支撐的AI雲基礎設施及服務,不僅是行業和企業加速擁抱AI的時代航船,也將是百度增長的主航道。