具身智能:機器人打破“專用”枷鎖 柔性製造迎來新範式
【環球網科技報道 記者 李文瑤】“個性化消費時代,多品種、小批量、高柔性的製造需求,與傳統工業機器人的結構化封閉環境、單一指令模式產生了根本性矛盾。”在2025世界機器人大會(WRC)現場,聆動通用CEO、科大訊飛機器人首席科學家季超如此點出當前製造業自動化的核心痛點。
這一矛盾正推動機器人控制技術經歷一場靜默革命——從過去基於精確模型(Model Base)的編程式控制,轉向基於數據驅動學習(Learning Base)的具身智能。其背後,是以Transformer架構為代表的大模型技術向機器人領域的深度滲透。
效率與通用性的“悖論”
擁抱通用性並非沒有代價。季超坦言,具身智能機器人在單一場景的效率目前可能仍低於專用機器人。他描繪了一個清晰的座標軸:橫軸是通用性,縱軸是效率,二者呈現顯著的負相關。“通用性越強,初期效率往往不會特別高;專用性強的系統因建模相對成熟,效率反而更容易提升。”解決這一矛盾,正成為業界共同攻堅的方向。

具身智能的核心突破在於賦予機器“理解”與“規劃”的能力。傳統工業機器人依賴人類編程的精確指令,執行直接而單一的動作。隨着多模態大模型和具身大模型的發展,機器人開始具備理解模糊任務指令、進行動作規劃並執行的能力,形成“任務理解-動作規劃-執行”的複雜全鏈路架構,為突破柔性製造的瓶頸提供了可能。
數據金字塔與大小腦協同
實現這一願景的關鍵在於數據。聆動通用提出了“數據金字塔”理論:底層是海量互聯網視頻文本數據,中層是仿真合成數據與動作捕捉數據,塔尖則是高價值、高可用的真實場景數據。越往塔尖,數據規模越小、質量要求越高、獲取難度與成本也越大。

“聆動通用的解法是分層構建。”季超介紹,依託科大訊飛的多模態預訓練底座,底層利用任務數據和互聯網數據構建基礎空間理解能力;中高層則通過合成數據和真機數據,如其發佈的具身智能採訓推一體機進行補充和微調,最終形成閉環。這使得基座模型能利用少量高質量真機數據快速適配不同場景,大幅降低任務遷移成本。
在技術架構上,“一腦多小腦”模式成為務實選擇。通用“大腦”由海量數據預訓練形成的基座模型構成,賦予機器人任務層級的認知理解能力;專用“小腦”則通過真機數據微調,解決具體場景的動作優化問題。兩者結合,既保證通用智能的基礎,又滿足特定場景的高效可靠。季超坦言:“我們認為現階段能夠落地的方式,可能是這種大腦和小腦結合的模式。”
生態共進:從實驗室走向工廠
落地節奏上,季超預測具身智能將經歷“單一結構化場景-半結構化場景-逐步通用”的漸進路徑。而推動這一進程需要全行業協作——從數據、模型、硬件工具鏈到應用,非單一企業能覆蓋。
科大訊飛的“平台+賽道”戰略正着眼於此。平台層面,其2022年發佈的“訊飛超腦2030計劃”旨在以基座大模型能力賦能生態夥伴,目前科大訊飛推出“即插即用”的機器人智能語音揹包,降低語音交互集成門檻;賽道層面,聆動通用聚焦工業製造、物流及零售領域,做垂直深耕。訊飛牽頭起草的國內首個《機器人自適應能力技術要求》國家標準(GB/T 44589-2024)已於今年4月1日正式實施,為行業建立技術共識提供標尺。
“世界機器人大會這類平台的價值日益凸顯。”季超以親身經歷為例,去年人形機器人還在蹣跚學步,今年已能穩定行走並完成操作任務,“它讓產業鏈上下游看見彼此進展,促成合作,加速技術從實驗室滲透至產線。”
當機器人從執行預設程序的“機械臂”,進化為能理解、規劃並適應複雜環境的“智能體”,一場屬於柔性製造的智能化躍遷已然啓幕。其終點,是讓機器真正融入人類生產與生活的動態洪流之中。