被“削弱”的英偉達,這次又想蹭機器人的熱度了?_風聞
差评XPIN-差评官方账号-用知识和观点Debug the world!1小时前
前陣子,老黃在 CES 上又狠狠秀了波肌肉。
不過呢大多數人,基本都被全新的 RTX 50 系顯卡給吸住了,世超這兩天研究了下發現,那些被咱 “ 冷落 ” 的新技術裏,一個兩個其實也都憋着大招。
就拿 Cosmos 世界基礎模型平台來説,這可是個讓 AI 能夠理解物理世界的好東西。

根據官方的説法, Cosmos 平台是一個專門為物理人工智能開發者設計的平台。
這又是物理人工智能,又是開發者,打眼一看,好像跟咱也沒啥太大關係。
但大夥兒先彆着急,這次 Cosmos 一發布,技術報告一甩,有些報道的標題已經用上了 “ 開啓物理 AI 大時代 ” 這樣的字眼,連老黃都説**“ 機器人的 ChatGPT 時刻即將到來 ”**。
而世超也去翻了翻 Cosmos 的技術報告,這麼説吧, Cosmos 就好比物理 AI ( 機器人、無人車等 )的**“ 黃埔軍校 ”**,咱們以後能不能指望機器人養老,它説不定能幫上大忙。
咱們可以簡單把 Cosmos 平台,當成一個工具箱,裏邊兒大概集成了世界基礎模型 ( WFM ) 、高級分詞器器、安全護欄以及加速數據處理管道這麼幾個 “ 工具 ” 。

後面那幾個專業名詞沒聽説過不要緊,但模型總該知道是啥吧。
這次,英偉達一口氣在 Cosmos 上發佈了 8 個世界基礎模型,而且都是基於 2000 萬小時的視頻訓練出來的,參數量從 40 億到 140 億不等,根據不同場景的應用需求,還可以分為 Nano 、 Super 和 Ultra 三種。

看着唬人,但世界基礎模型,跟咱們熟悉的圖像、視頻生成模型差不多,是生成式 AI 模型。
只不過它生成的東西並不是視頻那麼簡單,更準確的説,當你輸入文本、圖像、視頻或者運動數據以後,世界基礎模型生成的是有物理規律的 “ 場景 ” 、 “ 環境 ” 。
本質上,就是合成出高度仿真的數據,來實現物理 AI 跟虛擬環境的交互。
至於其他的什麼高級分詞器、安全護欄和加速數據處理管道,咱瞭解個大概就行。像高級分詞器可以把複雜的數據簡化,給數據劃重點。安全護欄就更好理解了,就是防止有害的輸出,保護隱私。
另外, Cosmos 還用到了一個 “ 先預訓練再後訓練 ” 的法子。

大概意思是,預訓練階段先給模型喂大規模的真實視頻數據,起碼要讓模型知道物理世界到底是咋運轉的。
接着,後訓練階段再具體問題具體分析,對預訓練模型進行微調,滿足特定任務的需求。
總之就是, Cosmos 平台通過各種技術手段,為物理 AI 構建出了一個跟現實物理世界類似的空間和交互環境。

不過説了這麼半天,可能有差友還是沒太明白,這玩意兒到底能用來幹啥。
其實這個問題,老黃已經在發佈會上講得很清楚了,就是機器人和自動駕駛汽車。
拿機器人行業來説,為啥這麼多年了一直沒啥大突破,很重要的一個原因就是缺數據。
跟大語言模型不太一樣,機器人訓練需要的數據不只是文字、圖像那麼簡單,因為機器人要感知這個世界,還要跟這個世界產生交互,所以它就得學習物理規律、動態變化。
但這些數據,恰恰是最難收集的。
還是拿機器人洗碗舉例,看似動作很簡單,但機器人想學會你得有視覺數據,比如餐具的形狀大小、油污程度,還有抓放碗的力度、用多大力氣擦洗這些力學數據,當然,洗碗過程中手臂移動、抓取角度的調整,包括一些複雜的動態因素,也需要收集、標註數據。
像之前的斯坦福 Aloha 家務機器人,還是開發者通過親身示範 “ 遙控 ” 機器人完成指定動作,來收集數據。

所以這個時候, Cosmos 就派上用場了。
模擬出一個洗碗環境,不就相當於,提前給機器人預習了一遍現實世界,等模型出師了,再放到現實世界去實操。
這樣一來,訓練效率上去了,成本也能控制住。
按照英偉達官方的介紹,現在已經有一部分機器人和自動駕駛公司用上了 Cosmos 。
OpenAI 投的那家 1X ,用 Cosmos 來給機器人做動態規劃。

小鵬也用 Cosmos 來合成各種天氣和路況的數據,訓練自動駕駛算法。
當然了,精準模擬現實世界只是理想狀態下的 Cosmos ,包括技術報告裏也提到,現階段的世界基礎模型還比較早期,生成的視頻並不完全符合物理規律。
該説不説,世超現在也覺得走世界模型這條路,確實有搞頭。
如果有一天, AI 能對現實世界進行模擬甚至是一比一復刻,並像咱們人一樣理解世界、做出決策,這才更貼近咱們人類對於人工智能的期望。
去年,包括 Lecun 、李飛飛這些 AI 大拿,還有谷歌 Deepmind ,其實都在研究世界模型。世超盲猜一波,今年在世界模型和機器人領域裏,可能會出現突破性的進展。
但不管成與不成,擅長 “ 賣鏟子 ” 的英偉達,都是那個最大贏家。
圖片、資料來源:
NVIDIA
Cosmos World Foundation Model Platform for Physical AI
部分圖源網絡
