陳根：機器人制造融合強化學習，更健壯更強大_風聞

陈根-知名科技作家为你解读科技与生活的方方面面。2021-04-14 11:41

2021-04-14

文/陳根

雙足機器人曾是科幻文學和電影的主題。在非理想地形上，早期雙足機器人的形象通常是移動緩慢且笨拙的。但是隨着科技的發展，它們開始能夠進行更快、更有效地移動。現在，有些雙足機器人已經可以適應環境和外部刺激。

雖然雙足機器人發展迅速，但是其在建模以及穩定性方面依然有很大的進步空間。**為此，研究人員嘗試通過強化學習來訓練雙足機器人並獲得了成功，**這在很大程度地增強了機器人的魯棒性。

事實上，在傳統機器人研究中，往往需要花費很多時間和技巧給機器人建模，尤其對於雙足機器人而言，一旦自身性質和周圍環境發生改變，如電機壞了、地面摩擦力改變，模型就有可能就會失效。

此外**，對於雙足式的機器人系統而言，其非線性非常高，並且由於是高自由度的混合系統，每一次踏步都會受到地面衝擊力，因此****，**很難獲得精確模型。

要想做一個實時控制算法，就要使用相對完整的動力學模型。但是，即便具備好的模型，部署在非常高自由度的非線性系統上，也很難做到較快的實時計算。因此，使用傳統方法時，很多學者都會做出權衡取捨，比如使用簡化的模型來做算法控制。

**然而，****這樣做的弊端也很明顯：**一方面，其無法完整利用動力學模型，從而不能充分發揮機器人系統的靈敏性；另一方面，基於模型的算法，一旦超過其穩定區域，算法很容易就會崩潰。所以，使用傳統方法製造出來的機器人在穩定性方面往往有所欠缺。

**針對於此，研究人員用強化學習的方法來訓練機器人，**通過相對完整的機器人動力系統，在仿真環境反覆嘗試後，機器人獲得大量和環境交互的數據，從而學會用穩定步態行走。

研究人員主要使用Python對機器人進行編程，由於是雙足機器人，算法控制上會更難。但用強化學習的方法訓練，研究出的機器人步態算法相比傳統基於模型的算法，性能顯著提升，帶來的魯棒性也更強。

該機器人不僅能像人類一樣前後左右地走，還能蹲着走，也能承受意料之外的負載，更能從強行推動造成的失穩狀態中恢復過來。在測試期間，其右腿的兩個電機損壞了，但它仍能調整其步行策略去適應。

**魯棒性增強，這也意味着，相比其他機器人，該機器人擁有更大的應用空間。**未來，在發生地震時，其有望能在塌房中做救援工作；或者在快遞業務中，可以充當快遞員的角色。

目前，相關論文《雙足機器人魯棒參數化運動控制的強化學習》（Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots），已被機器人國際學術頂會 ICRA 收錄，將有望促進雙足機器人的進一步發展。