數據“燃料”催化具身智能:訓練工廠湧現 行業加速破局
數據被稱為具身智能產業發展的“燃料”。近日,帕西尼具身智能超級數據工廠(Super EID Factory)在天津空天數字產業園投用。帕西尼感知科技創始人兼CEO許晉誠告訴記者,數據的短缺是目前具身智能發展面臨的瓶頸,目前具身智能產業可用的數據量僅為大語言模型可用數據量的幾百分之一。
目前,國內多地建立具身智能數據採集工廠,有帕西尼在天津的工廠、智元機器人在上海的工廠,以及北京具身智能機器人創新中心的工廠。中國證券報記者先後探訪了兩傢俱身智能數據採集工廠,瞭解其技術手段以及數據賦能產業的方式。行業專家表示,具身智能數據採集工廠的建設剛剛起步,未來需要與產業需求結合,同時具身智能數據採集的統一與規範是加速行業發展的基礎。
生產數據的“超級工廠”
在天津空天數字產業園,帕西尼極具現代感的銀灰色建築格外顯眼。在這座12000平方米的工廠內,生產的核心產品不是實體,而是“數據”。
數據被稱為具身智能產業發展的“燃料”。“從數據中進行模仿學習是具身智能模型進化的最具潛力途徑之一。”許晉誠對記者表示,相比今年實現突破性進展的DeepSeek等大語言模型,具身智能目前能使用的數據量僅為大語言模型的幾百分之一。
“現在的大語言模型使用的數據規模達到十萬億級,具身智能大模型的數據規模差不多在百萬量級。數據的短缺是目前具身智能發展面臨的瓶頸。”許晉誠説。
在帕西尼天津數據工廠的大廳,覆蓋了一整面牆的大屏幕上顯示着工廠的數據採集情況。屏幕上顯示的數據每三秒刷新一次,當天屏幕顯示,工廠的數據合格率達到92%以上。許晉誠表示,目前帕西尼天津數據工廠每天最多可採集55萬條數據,預計工廠每年可生產高質量數據2億條。
高工機器人產業研究所所長盧瀚宸告訴記者,訓練具身智能大模型的數據主要分為仿真合成數據和真實數據兩大類,還有一些廠商採用低成本的互聯網數據用於機器學習。“真實數據採集的成本最高、採集難度最大,但質量最好,是目前具身智能產業發展最需要的資源。”
在上海浦東,佔地3000平方米的智元數據採集中心已於2024年9月啓動。記者近期實地探訪看到,百台機器人在不同場景中忙碌作業,有的機器人上下揮舞機器手臂在滾動的傳送帶上熟練分揀物品,有的機器人擺動着機械雙手在數據採集員的動作指導下靈活摺疊衣物,還有的機器人化身收銀員,站在商場櫃枱後對商品進行掃碼結算。
智元機器人合夥人姚卯青介紹,智元數據採集中心已累計採集超百萬條高質量數據,覆蓋家居、餐飲、工業、商超和辦公五大類真實場景。
盧瀚宸認為,不同於大語言模型的訓練已經出現階段性突破,具身智能領域尚無人能證明通過大規模的數據訓練“復現”大語言模型的成功。但要讓具身智能機器人更“智能”,可應用於更多場景,必須通過大量數據採集和大模型的訓練。同時,具身智能的數據採集必須與產業需求結合,方能實現數據採集的閉環,讓數據採集有“用武之地”。
數據採集方式各異
廠商對真實數據的採集方式也有不同。
在帕西尼天津數據工廠,數據採集員們正在進行各類原動作的採集,比如超市商品掃碼、清理枕頭、擺放餐具等。一名採集員穿戴數據採集設備PMEC,一邊進行着擺放瓷盤、瓷筷的動作,一邊查看數據生成情況。
這種由採集員直接穿戴硬件設備採集數據的方式稱為“人類數據採集”。許晉誠認為,人類數據採集的方法具備獨特優勢,包括更高的效率和經濟性,以及能直接採集稀缺的人類觸覺模態數據。
帕西尼基於在多維度陣列式觸覺感知領域的技術積累和量產經驗,自主研發了PMEC超採技術。數據採集員雙手穿戴具有手部全運動自由度和全觸覺信號覆蓋採集功能的硬件設備,獲取操作動作所涉及的多視角視覺、觸覺、接觸點位姿等信息。這些原始信息經過帕西尼TacFlow Engine工具進行後處理,最後用於VTLA具身智能大模型或HyperCosmos世界模型的預訓練。
“目前機器人普遍掌握的動作是抓取、擺放。要應用到更多場景,我們需要把場景中的長程任務拆分成更加細化的工序,甚至是原子動作,目前,機器人執行任務的原子動作庫還遠遠不夠。”許晉誠表示。
數據採集間內的訓練就是要增加機器人所掌握的原子級技能,從而實現更多精細複雜的任務,如擰螺絲、摺疊、熨燙、舀取、切割等。“我們把這些動作進行採集,訓練成技能,變成模型,最終給到機器人使用。”許晉誠告訴記者,目前帕西尼天津數據工廠已完成上百種任務的採集,千種任務預計一年內可採集完成。
智元機器人主要採用了機器人遙操作採集方法。在一家飲品店的訓練場景下,數據採集員操作着機械臂重複着抓取飲品杯、放入托盤、裝入打包袋、打包吸管等動作。姚卯青介紹,為採集一條有效數據,每次物品擺放位置都需調整,每完成10次操作還要更換包裝袋和飲品杯樣式,每天重複採集約200條數據,直到機器人學會這項工作。每個場景採集上百遍數據,可以提升機器人執行任務的魯棒性。
此外,智元機器人於今年3月發佈了通用具身基座模型——智元啓元大模型(GO-1),加速了數據訓練的效率,藉助大模型的泛化推理能力,大幅減少機器人學習一項任務所需的數據採集量。
數據採集規範仍是痛點
如何讓具身智能產業可用數據規模快速擴充,儘快推動產業發展,帕西尼和智元機器人都選擇構建開放生態。帕西尼天津數據工廠的具身智能訓練數據,可應用於多模態、跨本體、跨任務、跨場景的具身智能擴散模型之中。
2024年12月,智元機器人開源了行業首個基於全域真實場景、全能硬件平台、全程質量把控的百萬真機數據集AgiBot World。截至目前,AgiBot World已被全球多家科技企業用於最新具身模型的開發當中。
但具身智能數據的標準化問題仍是行業痛點。埃夫特董事長遊瑋對記者表示,由於缺乏數據採集規範,當前採集的一些機器人訓練數據難以被遷移和複用。遊瑋表示,只有提升數據採集規範,使高質量數據可以複用,構建起足夠規模和質量的數據資源庫,才能形成合力,推動機器人產業持續進階,更廣泛地落地應用。
盧瀚宸認為,數據標準化和質量提升是具身智能產業發展的關鍵,但這一過程並不容易實現,數據歸屬、複用、定價等問題仍未解決。
為推動具身智能數據採集的高效利用,許晉誠表示,帕西尼目前正在參與訂立數據採集方面的標準,並將於近期發佈。