无人机悬停空中执行巡检任务,水面机器人在水域内巡航监测,桌面机械臂精准完成零件抓取,轮式移动平台承担物品配送工作。这些形态各异、运动模态不同、功能定位有别的机器人,能够实现协同作业,无需提前进行代码适配、人工任务分配及硬件接口统一,仅通过观察另一支异构机器人团队的任务演示,即可自主理解任务目标、协同完成作业。当目标物品缺失时,可自动选取替代物品;当团队中某台机器人出现故障时,可自动调整分工、补充岗位,全程无需人工干预。

近日由北京大学、清华大学、香港中文大学(深圳)、北京通用人工智能研究院、华盛顿大学等多家机构联合研发了一套IAIL框架,该框架有效解决了异构机器人之间技能迁移与团队协同的行业痛点。相关研究论文以《Cross‑robot behavior adaptation through intention alignment》为题,发表于机器人领域顶级期刊《 Science Robotics 》 。
PART 01
机器人模仿学习数十年,始终受限于“形态同构”约束
模仿学习是机器人快速掌握新技能的核心路径之一,其核心逻辑是通过观察演示行为复现对应动作,大幅降低手动编程的工作量与时间成本,广泛应用于工业机械臂、家用服务机器人等各类场景。
但长期以来,模仿学习存在一个核心瓶颈:演示机器人与学习机器人须具备高度相似的形态与结构。
机械臂的抓取动作无法直接迁移至轮式机器人,无人机的飞行轨迹难以被地面机器人复用;即便为同一款机器人,若环境光照、物体颜色等条件发生变化,其已掌握的技能也会失效。

在多机器人协同场景中,这一问题更为突出。如果演示团队由无人机、双臂机械臂组成,而学习团队包含水面船、单臂机械臂与人形机器人,二者在数量、结构与功能上均存在明显差异,传统模仿学习方法无法完成任务步骤的合理分配,更难以复刻完整的协同作业流程。
有科研人员尝试采用“结果导向”的模仿思路,即让机器人仅关注任务最终结果,忽略中间动作细节。但这种方法需为每一对异构机器人单独标注训练数据,工程成本极高,难以规模化应用;无监督学习虽能减少标注工作量,却要求机器人具备相近的功能定位,无法适配真实场景中的异构团队需求。
在IAIL框架出现之前,异构机器人之间的技能迁移始终存在难以突破的壁垒。不同运动模态、不同功能定位的机器人各自独立运行,无法实现高效协同,严重制约了多机器人系统在复杂场景中的应用。
PART 02
跳出动作复刻,聚焦意图对齐,重构机器人学习逻辑
以国内科研机构牵头的研究团队,没有继续在“动作匹配”的传统思路中深耕,而是提出了全新解决方案:摒弃底层动作复刻,聚焦任务意图对齐,让机器人学习行为背后的核心目标。
这一思路源于人类自然的学习机制:婴儿模仿成人抓取物品时,不会复刻成人的手指动作细节,而是理解“获取物品”这一核心意图,再通过自身方式完成动作;人类学习各类技能的核心,也是先明确目标,再结合自身能力选择实现路径。

基于这一逻辑,研究团队研发了IAIL意图对齐模仿学习框架,其核心是构建一个所有机器人共用的“意图空间”,无论机器人的形态、功能存在何种差异,均通过“监控指定区域”“抓取目标物品”“配送至指定点位”等核心任务意图进行统一表征。
该框架下,机器AIL框架的运行流程简洁且严谨,无需复杂的硬编码设计,具体分为三个步骤:

第一步,机器人基于自身硬件能力与传感器感知的环境信息,生成一批可安全执行的动作样本;
第二步,将自身生成的动作样本与演示机器人的动作,同步投射至共享意图空间;
第三步,通过计算意图相似度,选取与演示意图最接近的动作执行。
在多机器人协同场景中,系统会自动将各任务步骤分配给最适配的机器人;若某一任务超出所有机器人的能力范围,机器人会保持静止状态,避免无效动作引发安全风险。
PART 03
7种异构机器人实景验证,30种动态场景适配率超九成
为验证IAIL框架的实用性与鲁棒性,研究团队未局限于仿真环境,而是搭建了真实的测试场景,选取7种形态、功能完全不同的机器人,分为演示团队与学习团队开展实验。

演示团队由Tello无人机、双臂机械臂、Spark移动机器人组成,分别承担空中监控、物品抓取、物品交接与配送任务;
学习团队包含Cuboat水面机器人、单臂机械臂、Pepper人形机器人、Diablo升降轮式机器人,各设备的活动范围与功能定位均不重叠。
这些机器人涵盖飞行、水面巡航、桌面操作、地面移动等多种运动模态,能力差异明显,能够充分模拟真实场景中的异构机器人团队构成。
测试任务为一套连贯的协同流程,具体分为五个步骤:监控用户位置、抓取指定物品、准备物品交接、完成物品传递、配送至目、配送位置随机调整,且三分之一的场景中会随机移除一台学习机器人,模拟设备故障离线的突发情况。

实验结果显示,IAIL框架的适配性能表现优异:
- 在24个可完成任务的场景中,整体成功率达到92%;
- 30个场景的整体最佳适配准确率为88%;
- 当演示中的目标物品存在时,机器人精准选取该物品的概率为85%;
- 当目标物品缺失、仅存在同类替代品时,机器人正确选取替代物品的概率为87%;
- 当任务完全超出机器人能力范围时,94%的场景中机器人会正确识别并保持静止。
实景测试中的细节更进一步验证了框架的灵活性:当演示中使用的黄色胶带缺失时,机器人会自动选取黑色胶带作为替代,并将抓取与配送任务分配给具备移动与操作能力的Pepper人形机器人;当Cuboat水面机器人被移除后,Diablo升降轮式机器人会自动接替监控任务,测完胜两种主流方案,IAIL框架凭什么实现性能全面领先?
为验证IAIL框架的通用性与优越性,研究团队在仿真环境中,将其与当前模仿学习领域的两种主流方案进行对比测试,分别为基于密度的无监督映射方法与基于语言描述的翻译方法。
基于密度的无监督映射方法,通过对齐机器人技能的分布特征建立动作对应关系,无需人工标注,但该方法对机器人的动作分布极为敏感。当演示机器人与学习机器人的能力差异较大时,其适配精度会明显下降,仅能适用于形态、功能相近的机器人,无法应对异构场景。

仿真研究包含一项监控任务,该任务旨在评估机器人配对之间在数据集具备不同任务分布时的模仿学习表现。
基于语言描述的翻译方法,通过将演示动作转化为自然语言指令,指导学习机器人执行任务,能够应对一定的动作分布差异,但该方法未考虑机器人的实际执行能力,经常生成无法落地的指令。例如,向仅能监控桌面区域的机器人下达空中监控指令,该方法仍会输出相关动作指令,导致任务失败。
上述两种方法均存在一个核心缺陷:无法支持团队级模仿学习,仅能实现单台机器人之间的技能迁移,无法完成多机器人之间的动作对比与任务分配,难以适配异构机器人团队的协同需求。

IAIL框架从设计之初便聚焦团队级协同场景,无论机器人团队的规模、机型构成如何,均能基于意图与能力实现自动分工。在所有测试组合中,IAIL框架的任务得分均明显高于两种主流方案,统计差异具有统计学意义,充分体现了其在异构机器人技能迁移与协同中的优越性。
PART 04
无缝对接大模型,机器人部署成本进一步下探
IAIL框架的另一核心优势是可无缝对接大语言模型,彻底摆脱对机器人轨迹演示的依赖,进一步降低机器人系统的部署成本。
传统模仿学习需采集大量机器人演示轨迹,流程繁琐、成本较高;而IAIL框架中的语言标注编码器可直接处理自然语言指令,用户仅需通过文字描述任务目标,框架即可自动提取任务意图、分配任务流程、生成执行动作。当轨迹采集存在困难时,可通过大语言模型自动生成演示指令,替代实际机器人演示,大幅降低数据收集的工作量与成本。
研究团队表示,当前框架采用固定阈值判断任务可行性,后续将优化为自动参数调节机制,同时融合视觉、力觉等多模态信息,提升机器人对复杂任务的拆解与重组能力,进一步拓展框架的应用场景。
PART 05
结语与未来
过去数十年,机器人模仿学习始终局限于“动作复刻”层面,科研工作者致力于让机器人精准复刻演示者的关节角度、运动轨迹与执行时序,却忽略了行为的核心驱动因素:
意图决定行为,而非动作本身。
IAIL框架的核心价值,在于将机器人学习从“复刻动作”引导至“理解意图”的层面。该框架不关注机器人的运动模态与动作细节,仅聚厂生产线、仓储物流、应急救援、家庭服务等场景中,不同品牌、不同型号、不同功能的机器人,无需提前进行深度适配,即可通过意图对齐实现自主协同。无需额外编写适配代码、无需进行硬件接口兼容、无需人工分配任务,机器人可自主完成组队、技能学习与分工调整,大幅提升作业效率。

从“形态一致才能实现技能迁移”,到“意图一致即可完成协同作业”,IAIL框架彻底打破了异构机器人模仿学习的天花板,推动机器人技术向通用化、实用化方向迈出关键一步。