怎麼剛開工, 我就看到宇樹的機器人在模仿科比?_風聞
差评XPIN-差评官方账号-用知识和观点Debug the world!14小时前
要説今年過年最出風頭的科技企業,那除了整天服務器繁忙的 DeepSeek ,估計就得數宇樹科技了。
就是春晚上拿機器人扭秧歌的那個。
看着挺牛逼是吧,結果年才過了沒幾天,大正月的他們又整出個新活,英偉達、卡內基梅隆大學團隊用宇樹 G1 研究出來一個項目,拿機器人復刻科比。。。

看看這動作,這後仰跳投,是不是還挺有那味的?
別説你是詹蜜,經典的霸王步人家也學了。

有差友可能會問,我是年輕人,不懂規矩,不看球也不看 nba ,我咋能知道這機器人到底什麼水平呢?
也別慌,各位熟知的 “NBA 大使 ” 的經典鐵山靠,人家也能學。。。

有一説一,給機器人編程早就不是啥新鮮事了,你坤哥這種招牌動作,粉絲內部甚至還有用簡單機械機構就能實現的。所以宇樹這次要是隻能復刻這種的話,那還算不上啥科技狠活。
那麼這波這個展示真正牛波兒的地方在哪呢,大過年的人家總不會就是為了唱跳 rap 打籃球吧。
於是哥們去翻了翻人家的論文,才發現這裏面還真暗藏玄機,人家這一手看似是全明星模仿,實際上是機器人訓練技術的一個重大突破。

至於咱為啥這麼説,那就得先聊聊現在的機器人是咋訓練的。
眾所周知,機器人這玩意甭管外表多酷炫,骨子裏還是算法在跑。
所以你要想讓一個機器人學會打籃球的話,最簡單的辦法就是先測量出機器人的各方面數據,比如關節扭矩、連桿質量分佈啥的;再拿這些數據去搞個動力學建模,就是在電腦裏模擬機器人的運動。
不過這塊兒就得人工一點點調整各種參數,像機器人的手臂力量、投籃角度等等。這套 “ 私人訂製 ” 的玩法,在專業領域有個更唬人的名字,叫系統識別 ( System Identification , 簡稱SysID ) 。

但問題在於,要一點點把各種參數都調到完美,這是個特別肝的活兒,需要大量時間,還得是專業人士才能搞;
而且就算你在模擬器裏調好了,現實裏也不一定就是那麼回事兒。就好比你在 NBA 2K 裏練出一代喬丹,但上了真球場,可能連球都運不利索。
虛擬世界再真,跟現實的參數維度也不是一個量級的,像什麼籃球的手感、彈性,空氣阻力、風向風速,甚至其他球員的肘擊,模型都沒法面面俱到。
所以這種傳統 SysID 搞出來的機器人,在實驗室裏看着花拳繡腿,一到真實場景,就像我愛發明裏面的人機對抗一樣,要開始拉了。

既然真實環境這麼複雜,有的科學家就開始反向操作了:與其死磕完美模型,不如直接把機器人丟進各種 “ 奇葩 ” 環境裏去練級。
比如有時候地面很滑,有時候籃球很重,有時候籃筐很高。。。反正就讓機器人在各種極端條件下自己迭代,找到最優策略。
這種騷操作,有個聽起來玄乎的名字,叫域隨機化 ( Domain Randomization , 簡稱DR )

聽着好像有點道理,可這也有問題。這種方法就跟 “ 盲人摸象 ” 似的,機器人就算見識了各種情況,但要總結出真正的規律還是很難,而且很容易 “ 用力過猛 ” 。
再加上為了適應各種極端情況,機器人就得求穩,於是動作就很保守、不靈活,比如運球的時候總是小心翼翼的,投籃的時候不敢放開手腳。
一句話,這些傳統方法訓練機器人,要麼全靠建模調參,費時費力;要麼動作僵硬緩慢,沒法完成複雜動作,純純擺件。

可要想讓機器人真的參與到生活裏,不説代替咱們打工,起碼像人一樣的靈活性總得有吧,要是多少都沾點人工智障,那不白期待了嘛。
那麼宇樹這波到底是咋做到讓機器人這麼靈敏的呢,重點來了。
論文裏説,他們用了一個叫ASAP( Aligning Simulation and Real Physics ,對齊模擬與真實物理框架 )的東西。

按文章裏的説法,這個技術要先 “ 利用這些經過處理的人類運動數據在仿真環境中訓練一個基於相位的運動跟蹤策略 ” ,再 “ 通過強化學習訓練一個殘差動作模型補償仿真與現實之間的差異 ” 。
聽起來很繞,但你先別急,這玩意的實際思路還挺簡明的,其實就是把咱上面説的傳統功夫,用化勁整合起來,搞了個機器人訓練速成班。

簡單來説,這個速成班分兩步走,咱先説第一步:就是給機器人打基礎,搞模擬預習。
而要搞預習,你得有教材。這裏就是要先下載一堆視頻,打籃球的也行,其他視頻也行,重點是視頻裏得有人;
然後通過一個叫 TRAM 的運動重建工具,把視頻裏面的人類動作都扒出來,轉換成三維運動軌跡,這樣機器才能看得懂這些動作;完事再把這些動作放到一個虛擬環境裏來訓練,目的是讓機器人學會精確模仿視頻裏的動作數據。

拿打籃球這個動作來説,你得先找一堆打球視頻,記錄下運球、投籃的動作,把這些動作數據處理好,再把這些數據扔到模擬器裏,讓機器人先在模擬器裏雲練球,相當於先做好模擬再考試。

所以速成班的第二步就得真槍實彈的來,三年模擬完了,是時候五年高考了。
雖然之前的數據已經是從現實中提取的了,但等到機器人被拉到真球場上的時候,它就會發現雲玩家還是差點意思,真實環境裏的位置、速度、加速度、關節角度等數據,跟仿真裏還是有一定差別。
於是這時候工程師就會利用機器人身上的傳感器收集這些數據,再把這些數據跟之前在虛擬環境裏訓練的數據對比,用強化學習搞一個誤差修正模型出來,這個就是所謂的殘差( delta )動作模型。

有了這個殘差動作模型,這下機器人在模擬器裏的運動,就跟在現實裏大差不差了,然後工程師再把當中的少量參數微調一下,機器人就能做到跟視頻里人類運球一樣敏捷流暢了。

但你要把這個 ASAP 框架的兩步放一起看,就會發現這玩意搞的效果雖然看着挺牛逼的,比傳統方案練出來的機器人好多了,但思路其實跟咱上面説的傳統訓練思路差的沒那麼大。
原理也很簡單嘛,純建模訓練不真實還費時間,純現實訓練動作不靈活,那把這兩個方案結合起來:
用現實數據去幫助建模,再把建模的成功放在現實裏校正,虛實結合,不就兩難自解~

實際上,這種用現實數據搞虛擬建模,再把在虛擬建模裏完成的工程搬到現實,其實也算是很英偉達的操作了。
之前他們就有一個 Cosmos 平台,號稱是世界模型,目的就是像這次這樣把現實裏的物理現象搬到電腦裏去模擬,這樣就能大大節省工程師們的研發時間。
這玩意對機器人、 AI 、自動駕駛啥的意義都挺大,畢竟這可就不用再像以前一樣戴着各種傳感器,花那麼多時間慢慢蒐集現實數據。
訓練時長大幅縮短,結果最後訓練效果還更好了,這不妥妥的黑科技嘛。

哦對了,最後還有一個彩蛋:今天這篇論文的主要作者,英偉達 GEAR 團隊成員、現在在卡內基梅隆大學留學的 B 站 up 主何泰然,他小時候的夢想還真就是造一個電影《 鐵甲鋼拳 》( 設定是人類操控機器人打拳 )裏的機器人。
對一個理工男來説,把兒時的夢想變成現實,我覺得這太酷了。

圖片、資料來源:
ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body SkillsHumanoidLocomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning
Adaptive Kinematic Modelling for Multiobjective Control of a Redundant Surgical Robotic Tool
微博,bilibili等,部分圖源網絡
