你是否想过,为什么我们能一边走路一边玩手机,手指还能在口袋里准确找到钥匙?这种“不用看就能感知身体”的能力,在科学上被称为本体感觉。它就像一个内置在肌肉和关节里的陀螺仪,时刻告诉我们四肢的位置和运动状态。
在机器人领域,让机械手像人类一样灵活地转笔或把玩魔方,一直是极具挑战的前沿课题。过去,顶尖的机器手大多依赖“眼睛”——也就是外部摄像头和视觉算法——来追踪手中物体。但这带来了许多现实难题:手指一动就容易遮挡物体,光线变化会影响追踪,庞大的图像处理还会拖慢反应速度。这就引出了一个核心问题:如果让机器手闭上眼睛,仅靠自身的“肌肉感”,能完成灵巧的操作吗?
近日,来自苏黎世联邦理工学院(ETH Zurich)软体机器人实验室(Soft Robotics Laboratory)的最新研究:“Learning Robust Dexterous In-Hand Manipulation from Joint Sensors with Proprioceptive Transformer”。开发了一种名为本体感觉变换器(Proprioceptive Transformer,简称PT)的系统,成功让一只肌腱驱动的灵巧机械手,在没有任何外部视觉或触觉传感器辅助的情况下,仅凭“关节的本能”就玩转了连续旋转立方体的任务,性能甚至比依赖高端视觉系统的方案还要高出数倍。
01.
肌腱驱动的感知难题
灵巧手主流有两大类:刚性连杆驱动和肌腱驱动。ORCA手属于后者,它拥有17个自由度,通过电机牵引细钢丝绳来拉动手指关节。这种设计柔顺、紧凑,但带来了一个棘手的问题——传动不确定性。
![]()
该方法整体概览
钢丝绳的弹性拉伸、与护套的摩擦、关节的回差,都导致电机端的转动角度与手指关节的真实角度存在明显的非线性偏差。直接读取电机编码器,就像只盯着汽车油门踏板的刻度来猜测车速,在中低速时或许勉强能用,一旦需要精细的动态操控,误差就会被急剧放大。
为了解决这个问题,研究团队在ORCA的16个手指关节内直接嵌入了微型磁角度传感器(AS5600)。这些传感器直接测量关节的真实转角,完全绕开了从电机到关节的整条传动链。这种直接关节传感构成了PT系统感知基础的底层,也为后续一切惊艳的表现埋下了伏笔。
02.
师生蒸馏:从“上帝视角”到“纯本体感知”
PT的训练遵循经典的师生蒸馏范式。在NVIDIA Isaac Lab仿真环境中,研究者首先训练了一位拥有“上帝视角”的教师策略。
这位教师通过PPO强化学习算法训练,输入观测多达81维,包含无噪声的关节位置、速度,以及立方体的真实三维位置和四元数姿态。奖励函数被设计为角速度跟踪(分解为幅值和方向)、位置跟踪和多项平滑正则项的加权组合,特别是动作变化率惩罚,对后期迁移至真实硬件上的平滑运动至关重要。借助8192个并行环境的大规模训练,教师策略能够以极高的精度操控立方体绕Z轴持续旋转。
![]()
师生蒸馏流程
接下来轮到学生。学生的感知能力被刻意限制:只能访问带噪声的关节位置和速度历史、目标指令,以及前一时刻的动作和位置指令。为了逼真模拟真实传感器特性,关节位置被叠加了每回合变化的偏置噪声和高斯白噪声,速度也受到逐步噪声干扰。
学生策略需要仅凭这些“模糊的自我感知”来模仿教师的行为。但单纯的模仿(行为克隆)往往不够,因为学生要面对的是一个部分可观测的环境:它看不见物体,不知道手与物体之间微妙的接触力。为了让学生“学会想象”,研究者设计了一个辅助任务,要求学生同时重建出无噪声的关节状态师生蒸馏范式以及立方体的实时位置。这个重建损失与动作模仿损失联合优化,迫使Transformer编码器将物体动力学隐式地编码进本体感觉序列的特征表示中。
03.
时间序列中的“触觉推理”
学生的大脑,正是本体感觉变换器(PT)。其核心架构是Transformer模型。
在与物体交互的过程中,关节的指令目标与实际位置之间会形成某种特定的偏差模式。物体越大,手指越早被物理阻挡;物体越重,支撑手指被压弯的幅度越大。这些模式不是瞬时的,而是在时间轴上展开的动态信号。要准确解码出物体的大小、存在、甚至运动趋势,模型必须能够审视一段较长的观测历史。
Transformer的自注意力机制天然适合这种需求。PT接收过去10个时间步(约0.5秒)的关节数据,将它们与动作、指令上下文一起编码为12个token,送入3层4头的Transformer编码器。相比同等参数量的MLP或LSTM,Transformer能够灵活地关注那些接触发生和脱离的关键时刻,从而在快速的状态变化中保持对物体运动的准确“脑补”。
定量结果证实了这一点。在模拟环境中,PT对物体位置的重建均方根误差(RMSE)仅为13.70 mm,而MLP和LSTM分别为17.87 mm和15.64 mm,PT相比MLP降幅达23.4%。更重要的是,这种误差远小于立方体的尺寸(55 mm),意味着策略能够形成足够准确的内部信念来完成操控任务。
04.
实验结果惊艳:转速提升超3倍
真正的考验在真实ORCA手上。研究者使用两块不同尺寸(55 mm和65 mm)的立方体进行了对比测试,评估指标包括每分钟转数(RPM)、旋转精度(RA)、不掉落成功率(DFSR)和掉落次数(DC)。
![]()
结果非常惊艳,使用直接关节传感的PT-Joint方案,在55 mm立方体上达到了11.83 RPM的平均转速,不仅远高于单纯使用电机编码器的PT-Motor(9.33 RPM),更让仅用本体感觉反馈训练的Proprio-PPO基线(3.83 RPM)望尘莫及,速度提升了3.1倍。
![]()
该策略在仿真中用到了真实的物体姿态,实际部署时通过类似DeXtreme的视觉姿态检测系统提供目标状态。然而,视觉检测的噪声和延迟导致其实际转速仅3.08 RPM,不足PT-Joint的三分之一。也就是说,PT通过关节序列“脑补”出的物体状态,比视觉姿态估计更可靠、更有用。
换用65 mm大立方体时,PT-Joint无需任何重新训练,转速依然高达11.33 RPM,而Extero-PPO仅为4.83 RPM,证明了策略对物体尺寸的泛化能力。研究还通过可视化不同立方体尺寸下的关节指令-实际位置散点图,清晰地展示了体积效应和重量效应如何被自然编码在关节跟踪误差中,没有触觉皮肤,仅靠关节传感器就实现了对物体存在和尺寸的隐式检测。
05.
哪些设计真正起作用?
为了理清各项创新对最终性能的贡献,研究者进行了一系列消融实验。几项关键发现:
观测窗口大小至关重要。窗口从1步增加到10步,平均转速提升了31%。Transformer需要足够长的历史才能有效捕捉接触动力学中的时序模式。
重建辅助损失是不可或缺的。去掉重建头(无侦察),策略性能断崖式下跌:DFSR暴跌至35.0%,平均每次试验掉落5次。这印证了辅助任务对于塑造有意义的潜在空间至关重要,失去了“想象物体”的压力,Transformer也就退化为一个盲目的模仿器。
传感器类型与架构的交互同样明显。PT-Joint在所有窗口尺寸下都保持完美的RA和DFSR,而PT-Motor在小窗口时RA和DFSR显著下降。这表明关节传感提供的本体感觉信号更干净、更可靠,使得学习过程更容易收敛到鲁棒的解。