被“削弱”的英偉達，這次又想蹭機器人的熱度了？_風聞

差评XPIN-差评官方账号-用知识和观点Debug the world！1小时前

2025-01-30

前陣子，老黃在 CES 上又狠狠秀了波肌肉。

不過呢大多數人，基本都被全新的 RTX 50 系顯卡給吸住了，世超這兩天研究了下發現，那些被咱 “ 冷落 ” 的新技術裏，一個兩個其實也都憋着大招。

就拿 Cosmos 世界基礎模型平台來説，這可是個讓 AI 能夠理解物理世界的好東西。

根據官方的説法， Cosmos 平台是一個專門為物理人工智能開發者設計的平台。

這又是物理人工智能，又是開發者，打眼一看，好像跟咱也沒啥太大關係。

但大夥兒先彆着急，這次 Cosmos 一發布，技術報告一甩，有些報道的標題已經用上了 “ 開啓物理 AI 大時代 ” 這樣的字眼，連老黃都説**“ 機器人的 ChatGPT 時刻即將到來 ”**。

而世超也去翻了翻 Cosmos 的技術報告，這麼説吧， Cosmos 就好比物理 AI （機器人、無人車等）的**“ 黃埔軍校 ”**，咱們以後能不能指望機器人養老，它説不定能幫上大忙。

咱們可以簡單把 Cosmos 平台，當成一個工具箱，裏邊兒大概集成了世界基礎模型 ( WFM ) 、高級分詞器器、安全護欄以及加速數據處理管道這麼幾個 “ 工具 ” 。

後面那幾個專業名詞沒聽説過不要緊，但模型總該知道是啥吧。

這次，英偉達一口氣在 Cosmos 上發佈了 8 個世界基礎模型，而且都是基於 2000 萬小時的視頻訓練出來的，參數量從 40 億到 140 億不等，根據不同場景的應用需求，還可以分為 Nano 、 Super 和 Ultra 三種。

看着唬人，但世界基礎模型，跟咱們熟悉的圖像、視頻生成模型差不多，是生成式 AI 模型。

只不過它生成的東西並不是視頻那麼簡單，更準確的説，當你輸入文本、圖像、視頻或者運動數據以後，世界基礎模型生成的是有物理規律的 “ 場景 ” 、 “ 環境 ” 。

本質上，就是合成出高度仿真的數據，來實現物理 AI 跟虛擬環境的交互。

至於其他的什麼高級分詞器、安全護欄和加速數據處理管道，咱瞭解個大概就行。像高級分詞器可以把複雜的數據簡化，給數據劃重點。安全護欄就更好理解了，就是防止有害的輸出，保護隱私。

另外， Cosmos 還用到了一個 “ 先預訓練再後訓練 ” 的法子。

大概意思是，預訓練階段先給模型喂大規模的真實視頻數據，起碼要讓模型知道物理世界到底是咋運轉的。

接着，後訓練階段再具體問題具體分析，對預訓練模型進行微調，滿足特定任務的需求。

總之就是， Cosmos 平台通過各種技術手段，為物理 AI 構建出了一個跟現實物理世界類似的空間和交互環境。

不過説了這麼半天，可能有差友還是沒太明白，這玩意兒到底能用來幹啥。

其實這個問題，老黃已經在發佈會上講得很清楚了，就是機器人和自動駕駛汽車。

拿機器人行業來説，為啥這麼多年了一直沒啥大突破，很重要的一個原因就是缺數據。

跟大語言模型不太一樣，機器人訓練需要的數據不只是文字、圖像那麼簡單，因為機器人要感知這個世界，還要跟這個世界產生交互，所以它就得學習物理規律、動態變化。

但這些數據，恰恰是最難收集的。

還是拿機器人洗碗舉例，看似動作很簡單，但機器人想學會你得有視覺數據，比如餐具的形狀大小、油污程度，還有抓放碗的力度、用多大力氣擦洗這些力學數據，當然，洗碗過程中手臂移動、抓取角度的調整，包括一些複雜的動態因素，也需要收集、標註數據。

像之前的斯坦福 Aloha 家務機器人，還是開發者通過親身示範 “ 遙控 ” 機器人完成指定動作，來收集數據。

所以這個時候， Cosmos 就派上用場了。

模擬出一個洗碗環境，不就相當於，提前給機器人預習了一遍現實世界，等模型出師了，再放到現實世界去實操。

這樣一來，訓練效率上去了，成本也能控制住。

按照英偉達官方的介紹，現在已經有一部分機器人和自動駕駛公司用上了 Cosmos 。

OpenAI 投的那家 1X ，用 Cosmos 來給機器人做動態規劃。

小鵬也用 Cosmos 來合成各種天氣和路況的數據，訓練自動駕駛算法。

當然了，精準模擬現實世界只是理想狀態下的 Cosmos ，包括技術報告裏也提到，現階段的世界基礎模型還比較早期，生成的視頻並不完全符合物理規律。

該説不説，世超現在也覺得走世界模型這條路，確實有搞頭。

如果有一天， AI 能對現實世界進行模擬甚至是一比一復刻，並像咱們人一樣理解世界、做出決策，這才更貼近咱們人類對於人工智能的期望。

去年，包括 Lecun 、李飛飛這些 AI 大拿，還有谷歌 Deepmind ，其實都在研究世界模型。世超盲猜一波，今年在世界模型和機器人領域裏，可能會出現突破性的進展。

但不管成與不成，擅長 “ 賣鏟子 ” 的英偉達，都是那個最大贏家。

圖片、資料來源：

NVIDIA

Cosmos World Foundation Model Platform for Physical AI

部分圖源網絡