機器人都開始扭秧歌了,鋼鐵俠還會遠嗎?_風聞
中科院物理所-中科院物理所官方账号-2小时前
2025 年春晚,宇樹科技的Unitree H1 機器人“福兮”身穿花襖,帶領演員們共同完成了極具民族特色的扭秧歌表演《秧BOT》。


這不僅是一次視覺盛宴,更是機器人技術發展的生動展示。那麼,這些機器人是如何做到如此流暢的舞蹈動作的呢?

“福兮”們憑藉高自由度關節設計與高扭矩電機,實現類似人類的精準運動控制,確保穩定步態。
在羣舞表演中,它結合3D 激光雷達(LiDAR)與計算機視覺,即時感知環境與演員位置,精準同步隊形與動作。

其核心技術包括強化學習(Reinforcement Learning, RL),使機器人通過視頻捕捉學習舞蹈,並利用軌跡優化提升動作流暢度。為了保證舞蹈穩定性,H1 採用力矩補償算法、零力矩點控制、欠驅動收斂算法等策略,平衡大幅度動作並降低能耗。

此外,在手絹舞中,H1 通過旋轉同步結構與隱形釋放機制精確復現演員揮舞動作,並結合步態預測與震感降噪系統,確保動作自然、安靜流暢。多台機器人則依靠集羣控制(Swarm Control)和優化算法協同表演,實現高效避障與舞台適應性,展現完美羣舞效果。
然而,若讓這台機器人下台完成如端水、穿衣等日常任務,它可能立刻陷入困境。

比如春晚後台,當魔術師劉謙遇到機器人G1(後面會講到)準備“握”一個時,G1竟上演了“卧”一個,可謂是用魔法打敗了魔法,向我們展示了魔法界的行禮方式……

那麼,當前的人形機器人距離《鋼鐵俠》中的高階智能體究竟還有多遠?目前全球的機器人技術到底發展到什麼程度了?中國的研究處於什麼水平?
當走進H1的老家(官網介紹),我們會更直觀地感受到這位一歲半的180 cm機器小孩進化之迅猛。

在目前的版本中,H1移動速度高達3.3米/秒,打破全尺寸人形最高移動速度;採用UNITREE M107關節電機可實現膝關節最大扭矩360N·m;配備的LIVOX-MID360款3D激光雷達和Intel RealSense D435i款深度相機使得H1能360°無死角感知周圍環境。
看到“天賦異稟”的人形機器人努力融入中國傳統文化的這一刻,小編對機器統治人類的擔憂好像也在逐漸消散(很期待H1長大後給俺養老呢!)。

看着不穿褲子扭秧歌的H1如此可愛
,在這裏show一下宇樹官網發佈的H1的成長記錄小彩蛋~(注意提前調節音量噢)
解構機器人
HAPPY 2025 NEW YEAR
機器人發展如此之快,我們人類更要跟上TA們進化的步伐,認識機器人,理解機器人,成為機器人,超越機器人。為了真正瞭解一個機器人的運作,我們現在一步步解構它的功能。
人形機器人能夠執行復雜任務的關鍵在於其運動(locomotion)、感知(perception)、認知(cognition)和導航(navigation)四個核心過程。這些要素相互作用,使機器人能夠感知環境、決策並採取行動。
困難01.
如何讓機器人穩定行走
HAPPY NEW YEAR
機器人運動系統的核心目標是保持平衡、控制步態並優化能量效率。人形機器人通常採用零力矩點(Zero Moment Point, ZMP)控制,以確保行走時的穩定性。

零力矩點控制指在機器人行走過程中,如果接觸點的合力作用點位於支撐面內,則機器人能夠保持穩定。在步態控制時,機器人需要同時具有靜態穩定和動態穩定的能力。
多足機器人相比傳統的輪式機器人擁有更多的關節自由度,需要更復雜的控制,否則極容易因重心偏移而摔倒。

尤其是兩足機器人,由於極易產生前後方向的傾覆力矩導致前傾或後仰,因此春晚上H1機器人在下台時被後面掐着脖子以抵抗傾覆力矩。

逆運動學(Inverse Kinematics,IK):如何計算運動時的關節角度
逆運動學是解決機器人如何從一個姿態到達目標位置的數學方法,它根據執行器末端的位置和方向反推關節角度和運動姿態:

從低維的任務空間到高維的 執行器空間的座標變換的解往往具有不穩定性和不唯一性。
對於人形機器人來説,計算其各關節運動尤為關鍵。例如,當機器人需要抬起一隻腳邁步時,IK算法需要計算:
膝關節、髖關節等多個自由度的角度變化;
確保機器人在單腳支撐期間保持重心穩定;
計算最優軌跡,使其既節能又平穩。
步態生成
SPRING
FESTIVAL
機器人步態可以通過兩種方式生成:
基於模式的步態:在已知環境中,利用零力矩點方法和逆動力學的計算設定行走方式,如ASIMO機器人採用的有限狀態機(Finite State Machine, FSM)。
在線優化步態:利用強化學習或優化算法,如Proximal Policy optimization (PPO), Soft-Actor Critic (SAC), and Evolutionary Strategies (ES) 等,使機器人能夠適應複雜地形,如Digit機器人在物流環境中的動態調整。
困難02.
如何讓機器人看見世界
HAPPY NEW YEAR
機器人傳感器系統是機器人獲取外部環境信息、執行自主任務的關鍵組件。根據其功能,機器人傳感器可分為觸覺與力覺傳感器、運動與位置傳感器、距離與環境感知傳感器、視覺傳感器等多個類別。
觸覺與力覺傳感器
SPRING
FESTIVAL
觸覺傳感器):可用於檢測物體的存在、接觸壓力,甚至温度變化。例如,在機器人手爪中,觸覺傳感器能測量抓取物體時的受力,防止物體滑落或被損壞。
力/力矩傳感器:用於測量機器人施加的力矩,以實現精確控制。例如,協作機器人(Cobot)通過力矩傳感器感知人與機器人的交互力,實現安全作業。
運動與位置傳感器
SPRING
FESTIVAL
編碼器:測量關節或輪子的旋轉角度和速度,保證運動精度。主要包括光學編碼器、電磁編碼器、電容編碼器等。加速度計(Accelerometers):測量機器人在不同軸向上的加速度,並通過積分計算速度。陀螺儀(Gyroscopes):測量角速度和方位角,為姿態控制提供數據。
環境感知傳感器
SPRING
FESTIVAL
紅外傳感器基於紅外光反射原理,用於短距離測量,但易受環境光影響。超聲波傳感器通過發射高頻聲波,並測量回波時間來計算距離,常用於避障和測距,例如掃地機器人使用超聲波傳感器檢測牆壁。主動信標(Active Beacons)可用於機器人導航,包括三邊測量法(trilateration)和三角測量法(triangulation),實現高精度定位。激光測距儀(Laser Range Finder, LRF)使用激光束測量目標物體的精確距離。例如,自動駕駛汽車使用激光雷達(LiDAR)進行環境建模和目標檢測。
視覺與深度傳感器
SPRING
FESTIVAL
基於視覺的傳感器:包括CCD(電荷耦合器件)和 CMOS(互補金屬氧化物半導體)攝像頭,常用於計算機視覺任務,如物體檢測、人臉識別。
顏色跟蹤傳感器用於檢測和跟蹤特定顏色的目標,應用於工業檢測、機器人競技等場景。
深度傳感器結合紅外投影儀和 IR 攝像頭可用來獲取 3D 深度信息。例如,微軟 Kinect 傳感器利用結構光技術生成三維點雲數據。

此外,火星探測器等自主機器人常使用被動立體視覺(Passive Stereo Vision)創建本地地形地圖,以便進行自主導航。與 LiDAR 等主動傳感器相比,立體視覺能耗更低,適合遠程任務。
困難03.
如何讓機器人思考
HAPPY NEW YEAR
在人形機器人領域中,“思考”是機器人決策系統的核心,它決定了機器人的行為和策略。機器人通過感知數據(如視覺傳感器的數據、環境傳感器的數據)構建完整的環境地圖,並計算出最優的路徑以及動作規劃。

認知模型的實現:
通過計算機視覺識別物體、檢測邊緣並進行模式識別,構建環境地圖。
結合SLAM技術實現即時定位與更新地圖。
使用複雜的人工智能算法(如深度學習、神經網絡等)來優化機器人的位置和運動軌跡,確保精準執行。
機器人非線性控制策略
SPRING
FESTIVAL
在人形機器人中,系統具有非線性動力學特性。這種特性使得傳統的線性控制方法無法有效發揮作用。當前科技界主要通過以下策略實現:

全局線性化控制
使用數學變換將非線性系統映射到等效的線性狀態空間。通過微分平坦系統(Differentially Flat Systems)、李代數和微分同胚進行狀態估計和反饋控制,確保系統的穩定性。

局部線性化控制
在機器人局部平衡點附近建立線性近似模型。利用這些模型來提高系統對外部擾動的穩健性,並支持從靜止到行走等狀態之間的切換,確保平穩過渡。
李雅普諾夫穩定性控制
使用李雅普諾夫函數來分析和保證系統的漸近穩定。在人形機器人行走時,這種分析方法可以幫助確保步態不會因外部衝擊而失穩。
困難04.
如何教機器人“認路”
HAPPY NEW YEAR
機器人如何像人類一樣“認路”?這背後的核心技術,就是導航(Navigation)。不久前的一期線上科學日已針對鴿子歸巢(可點擊跳轉)的識路導航系統進行了較為細緻的討論。
想象一下,你的掃地機器人如何避開桌椅,在房間裏找到最優清掃路線?又或者,自動駕駛汽車如何在複雜道路環境中做出迅速決策?
這背後依賴的是路徑規劃。

幾十年來,科學家們不斷改進路徑規劃算法,使機器人在複雜環境中也能自主決策、流暢行動。
從經典到智能進化:路徑規劃的發展
SPRING
FESTIVAL
最早的路徑規劃研究始於20 世紀 60 年代,當時科學家們試圖在大規模空間中找到最短路徑。最初的方法主要是經典算法,如Dijkstra 算法和A* 算法,這些基於圖搜索的技術保證了最優解,但計算複雜度較高。
隨後,研究人員提出了人工勢場法(APF),讓機器人通過“吸引力”和“斥力”計算路徑,但容易陷入“局部最小值”而卡住。
為了克服這些問題,概率方法(Probabilistic Methods)在1990 年代崛起。代表性算法是概率路圖(PRM)和快速探索隨機樹(RRT),它們通過隨機採樣構建路徑網絡,極大提高了計算效率,使機器人能在複雜、動態環境中自由探索。
到了2000 年代,研究人員又引入了啓發式搜索(Heuristic Planners),如貪心算法(Greedy Search)和D* 算法,進一步提升了路徑規劃的即時性,特別適用於無人機、行星探測車等需要快速決策的系統。
機器人如何像生物一樣學習路徑?
SPRING
FESTIVAL
進入 21 世紀,研究者受自然界啓發,發展出進化算法(Evolutionary Algorithms),讓機器人像生物一樣“進化”路徑規劃策略。
遺傳算法(Genetic Algorithms, GA):模擬生物基因突變與優勝劣汰的過程,不斷優化路徑選擇。
粒子羣優化(Particle Swarm Optimization, PSO):靈感來源於鳥羣覓食,機器人在“搜索空間”中協同尋找最優路徑。
蟻羣優化(Ant Colony Optimization, ACO):模擬螞蟻覓食行為,利用“信息素”找到高效路徑,適用於動態環境中的路徑規劃。
模擬退火(Simulated Annealing, SA):借鑑金屬退火過程,通過隨機搜索避免陷入局部最優解,提高路徑質量。
未來的路徑規劃:更快、更智能、更節能
SPRING
FESTIVAL
今天,路徑規劃不再僅僅關注“最短路徑”,而是開始優化時間、能耗、平穩性等參數。例如,現代自動駕駛技術會綜合考慮轉彎平滑度、加速度限制、避障策略,確保行車安全與舒適性。
未來,強化學習(Reinforcement Learning, RL)正成為路徑規劃的新趨勢。機器人將不再依賴預設規則,而是通過自主試錯和環境反饋,不斷優化決策策略,使導航更加靈活、高效。
強化學習——人形機器人的外掛
HAPPY 2025 NEW YEAR
1. 強化學習的本質:機器人如何像人一樣學習?
強化學習的核心目標是:讓智能體(Agent)在與環境交互的過程中,通過試錯逐步學習到最優策略(Policy),以最大化長期回報(Reward)。
我們可以把這個過程類比為實驗室裏的自旋系統尋找最低能態
:
機器人面臨一個複雜環境(相當於自旋系統的能量勢壘)
它通過不同的動作(類似於自旋翻轉)嘗試改變狀態(State)
環境給它獎勵(Reward)
指引它走向“低能態”
——即最優行為策略。

上圖機器人強化學習的學習路徑,其核心可概括為這一閉環描述:狀態 -> 動作 -> 獎勵 -> 策略更新。通過這一循環,機器人逐步優化其行為策略,實現目標任務。例如,在機器人操作中,強化學習通過值函數和策略不斷優化動作規劃,指導機器人在複雜環境中完成任務。
相比於監督學習,強化學習則是在沒有標籤的情況下,通過探索數據的特性來學習。它並不會直接判斷某個狀態或動作是好是壞,而是通過獎勵信號進行評價。機器人的行為會影響後續數據的發展,因此強化學習的反饋是延遲的,數據是序列化的,並且數據與數據之間存在相關性。
2. 為什麼人形機器人需要強化學習?
人形機器人比普通輪式機器人複雜得多,物理上,人形機器人有幾十個自由度(DOF),狀態空間遠大於普通機械臂。
傳統控制方法(如PID、優化控制)難以在不確定環境下實現高效控制。RL 提供了一種端到端學習的方法,允許機器人通過模擬或真實環境交互,自主學習如何行走、站立、跳躍,甚至模仿人類動作。
📌 類比:當小編在實驗室中嘗試優化 PLD 工藝時,可能不會直接知道最優參數,而是需要不斷實驗,調整沉積温度、氣壓等。RL 也是如此,讓機器人在“實驗”中找到最優策略。
3. 人形機器人中的強化學習方法

機器人領域強化學習研究的範式
價值函數方法(Value-Based RL)
SPRING
FESTIVAL
核心思想是學習一個價值函數(Q值)來評估不同動作的好壞,然後機器人選擇價值最高的動作執行。例如:Q-learning、深度 Q 網絡(DQN)。
🚀 應用:最初的RL 機器人控制主要依賴 Q-learning,例如機器人學會在二維空間避障。但對於高維人形機器人,這種方法不夠高效。
策略梯度方法(Policy-Based RL)
SPRING
FESTIVAL
不同於 Q-learning直接估算價值,這類方法直接優化策略函數,更適合高維連續動作問題:
深度確定性策略梯度(DDPG):用於機器人抓取物體等任務。
信賴域策略優化(TRPO):適用於複雜運動,如機器人踢足球。
近端策略優化(PPO):用於高效的訓練,比如 OpenAI 訓練的五指機械手。
🚀 應用:Boston Dynamics 訓練 Atlas 機器人跑酷時使用了 PPO。
模型學習方法(Model-Based RL)
SPRING
FESTIVAL
這類方法嘗試讓機器人先學習世界的物理規律(建模),然後在模型中規劃最優策略,類似於小編在實驗前先建立理論模型:物理仿真環境(MuJoCo、PyBullet)+ RL 訓練。在機器人學會在仿真中行走後,再轉移到真實環境(Sim-to-Real)。
🚀 應用:Google DeepMind 用 Model-Based RL 訓練四足機器人適應各種地形。Tesla 的人形機器人 Optimus 在仿真環境中學習步行和抓取。
4. 未來方向🎯****
元強化學習(Meta-RL):讓機器人像人一樣,學習如何學習,提高適應性。
逆強化學習(IRL):從人類演示中推導獎勵函數,減少手工設計的工作。
自監督 RL:減少對外部獎勵信號的依賴,讓機器人自主探索世界。
全球人形機器人爭霸:誰才是未來智能革命的領跑者?
HAPPY 2025 NEW YEAR

隨着國產人形機器人不斷突破極限,我們不妨看看國際舞台上還有哪些強勁的競爭者。特斯拉、波士頓動力、Agility Robotics、Unitree等科技巨頭,正在推動人形機器人從實驗室走向現實,賦予它們更強的感知、學習和執行能力。那麼,這些機器人各自擅長什麼領域?
特斯拉 Optimus:工業化未來的多面手
SPRING
FESTIVAL

作為電動車和自動駕駛領域的佼佼者,特斯拉推出的 Optimus 機器人,也繼承了其 AI 先發優勢。Optimus 搭載了類似自動駕駛系統的神經網絡,能即時感知環境、識別物體,並自主執行任務,如抓取、搬運、精細操作等。其高分辨率攝像頭與分佈在手部和足部的先進觸覺與力覺傳感器,讓它能像人類一樣感知物品的重量和形狀。此外,強大的動力控制系統,使其具備流暢的運動能力,成為未來工業製造與家庭服務的潛在變革者。
波士頓動力 Atlas:機器人界的“運動健將”
SPRING
FESTIVAL

如果説 Optimus 代表的是工業應用的未來,那麼波士頓動力的 Atlas 則是機器人界的“體能怪獸”。它憑藉卓越的動態控制系統,可以在崎嶇不平的地形上穩健行走,甚至完成跳躍、空翻、翻越障礙物等高難度動作。這得益於激光雷達(LiDAR)+ 深度攝像頭組成的即時環境感知系統,使其能夠在複雜環境中迅速調整動作,展現出驚人的機動性。Atlas 已被廣泛用於軍事、救援等高風險領域,未來或將在更多高動態任務中大放異彩。
Agility Robotics Digit:物流與倉儲的可靠夥伴
SPRING
FESTIVAL

與 Atlas 的高動態不同,Digit 機器人更專注於穩定行走和物流任務。它採用了特殊的末端執行器(即機械手),能夠精準拾取、搬運和放置貨物,適用於倉儲、物流和供應鏈管理。Digit 具備強大的平衡控制技術,即使在樓梯、狹窄通道或複雜光照條件下,也能流暢執行任務。值得一提的是,它的LED“眼睛” 不僅提升了人機交互體驗,還能通過光信號向人類員工傳達行動意圖,提高協作效率。
Unitree G1:從四足機器人到人形機器人的突破
SPRING
FESTIVAL

在國產機器人中,Unitree G1 是近年來最具潛力的選手之一。相比 H1 的工業風設計,G1 造型更具流暢美感,並且在跳躍、棍術操控
等方面表現突出。
它結合了模仿學習和強化學習技術,使其能夠不斷進化,並適應更復雜的任務需求。憑藉深度攝像頭 + 3D 激光雷達(LiDAR),G1 能夠進行 360 度全方位環境感知,在動態環境中實現精準決策與精細操作,甚至能夠輕柔地拾取易碎品,展現強大的任務適應能力。
除了上述明星機器人,還有一些領域的強者值得關注:

Engineered Arts AMECA:憑藉極具擬人化的表情,在人機交互和娛樂領域表現出色,但目前仍缺乏行走能力。
Figure AI Figure 02:專注於倉儲和物流,具備增強的環境感知能力,致力於提升自動化作業水平。
KIT ARMAR-6:由卡爾斯魯厄理工學院(KIT) 研發,專為工業環境設計,擅長自主操作和協同作業。
Astribot S1:家庭友好型機器人,具備快速學習能力,或將成為未來家務機器人市場的重要玩家。
從春晚舞台到現實應用,人形機器人還需要哪些技術突破?
要實現科幻作品中的“鋼鐵俠”級別能力,我們的人形機器人依然任重而道遠,仍需在以下核心技術領域取得突破:
高效動力系統:目前的電機和液壓驅動難以兼顧力量與靈活性。未來可能採用人工肌肉材料(如電活性聚合物或形狀記憶合金),以降低能耗並提升仿生能力。
高級環境感知與智能控制:現有機器人多依賴預設規則,難以適應複雜環境變化。結合深度學習與強化學習,使機器人能自主調整步態並適應多變環境。
優化能源系統:現有電池技術難以支撐長時間高功耗運動。未來或可藉助高能量密度電池、小型燃料電池或高效無線充電技術,提高續航能力。
參考文獻:
Zhang T, Mo H. Reinforcement learning for robot research: A comprehensive review and open issues[J]. International Journal of Advanced Robotic Systems, 2021, 18(3): 17298814211007305.
Rubio F, Valero F, Llopis-Albert C. A review of mobile robots: Concepts, methods, theoretical framework, and applications[J]. International Journal of Advanced Robotic Systems, 2019, 16(2): 1729881419839596.
Chethana S, Charan S S, Srihitha V, et al. Humanoid Robot Gait Control Using PPO, SAC, and ES Algorithms[C]//2023 4th IEEE Global Conference for Advancement in Technology (GCAT). IEEE, 2023: 1-7.
宇樹科技官網:https://www.unitree.com/cn/h1
Kajita S, Benallegue M, Cisneros R, et al. Biped walking pattern generation based on spatially quantized dynamics[C]//2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids). IEEE, 2017: 599-605.
Hirai K, Hirose M, Haikawa Y, et al. The development of Honda humanoid robot[C]//Proceedings. 1998 IEEE international conference on robotics and automation (Cat. No. 98CH36146). IEEE, 1998, 2: 1321-1326.
D’Souza A, Vijayakumar S, Schaal S. Learning inverse kinematics[C]//Proceedings 2001 IEEE/RSJ International Conference on Intelligent Robots and Systems. Expanding the Societal Role of Robotics in the the Next Millennium (Cat. No. 01CH37180). IEEE, 2001, 1: 298-303.
https://interestingengineering.com/entertainment/top-humanoid-robots-list
https://xpert.digital/en/robot-comparison/
春晚機器人雖酷,離“鋼鐵俠”仍有距離
當前的發展速度表明,或許在未來 10-20 年內,我們將迎來更智能、更強大的機器人進入日常生活。
你認為人形機器人會在何時真正融入我們的世界呢?
