成功率从30%到91.7%，RLDX-1告诉你现有机器人模型到底缺了什么？

2026-05-10100

韩国团队RLWRLD联手KAIST实验室发布了RLDX-1模型，这是一套面向真实世界灵巧操作的视觉-语言-动作（VLA）模型，核心目标是解决现有机器人策略在动态环境、记忆依赖和精细接触任务中的系统性失效问题。

RLDX-1并非仅靠增大模型参数或堆砌数据，而是从架构底层重构：它整合了运动感知、长期记忆与物理传感（力矩+触觉）三大功能性能力，通过多流动作变换器（MSAT）实现认知、本体与物理信号的联合建模。在需要长期记忆的任务上，π0.5和GR00T N1.6的成功率只有30%出头，而他们的模型RLDX-1直接干到了91.7%。

这个叫RLDX-1的机器人操作模型，到底强在哪儿？

PART 01

现有模型卡在哪里？

先说一个行业里公开的问题。现在的机器人视觉-语言-动作模型，在实验室里跑得顺，但一到真实场景就掉链子。不是因为模型不够大，也不是因为数据不够多，而是这些模型从一开始的设计方式就存在根本性缺陷。

传统模型的工作方式，本质上是"看一眼，动一下"。输入当前帧图像，输出下一步动作。这在静态、干净的环境里还能应付，但真实操作任务根本不是这样运转的：传送带上的箱子在动，需要预判它的位置；人刚才把东西塞进了哪个盒子，需要记住；插头已经完全被手遮住了，需要靠手感来完成插入。

这些能力，现有模型统统没有。缺的不是视觉理解，缺的是感知运动趋势的能力、跨时间步记忆历史的能力，以及利用触觉和力矩信号的能力。

RLDX-1的整个设计，就是奔着这三个缺口去的。

PART 02

架构重构：眼睛、记忆和触觉缺一不可

RLDX-1的架构乍看和其他同类模型没什么不同，VLM主干加动作模型。但差异藏在里面。VLM主干部分，团队在Qwen3-VL 8B的基础上做了两个关键改造。

给定视频观测信息与语言指令后，RLDX-1 通过三大核心功能模块预测未来动作：运动模块实现运动感知、记忆模块提供长时序记忆能力、物理流模块接入力矩与触觉信号以完成物理感知。模型以视觉语言模型（VLM）作为主干网络，将视觉与语言信息映射为认知表征；再由多流动作 Transformer对该认知表征、物理特征编码及动作特征编码进行联合去噪，最终输出决策动作。

第一个是记忆模块。不再只看当前帧，而是把过去K帧的视频观测全部编码进来，生成包含历史信息的认知特征。这让模型知道"刚才发生了什么"。听起来简单，但对于"人刚才把东西放进了哪个盒子"这类任务，没有这个模块就直接失败。

第二个是运动模块。专门设计的时序编码器，捕捉帧间的动态信息。不是简单的帧差计算，而是真正感知物体的运动轨迹和速度方向，让机器人能对动态物体做出预判性动作，而不是被动追赶。

RLDX-1主要由两大核心部分组成：视觉语言模型（VLM）与动作模型。

动作模型这边，变化更大。团队设计了一个叫多流动作变换器（MSAT）的结构，把三路输入并行处理：认知特征流、动作流，以及最关键的物理信号流。

物理信号流专门处理力矩和触觉信号。三路信息通过联合自注意力机制进行跨模态交互，最终共同生成动作序列。

另外值得一提的是，当硬件没有物理传感器时，物理信号流可以直接屏蔽掉，模型照样工作。这保证了架构的通用性，不会因为硬件条件不同就整个废掉。

整个架构的底层逻辑是：视觉告诉你"是什么"，记忆告诉你"之前发生了什么"，触觉告诉你"现在接触到了什么"——三者缺一不可。

PART 03

数据与训练：三类数据、三个阶段、一套闭环

好的架构需要好的数据来激活，RLDX-1在数据和训练上同样下了很深的功夫。

数据来源分三类。公开数据覆盖单臂、双臂、人形机器人等多种形态，给模型建立通用操作的基础；内部采集数据来自两个专用平台——搭载高自由度灵巧手的ALLEX全身人形机器人，以及装了AnySkin触觉传感器的Franka Research 3机械臂，这是训练触觉和力矩感知能力的核心燃料；

合成数据框架概述

合成数据则通过一套自研的生成流水线产出，利用图像编辑和视频生成模型对场景外观、物体类别、光照条件进行系统性变换，同时用视觉语言模型对生成视频做质量过滤，只保留动作和指令一致、轨迹物理可信的样本。

合成数据示例，上图展示一组合成数据样例：(a) 自研 ALLEX 平台堆叠杯面原始示范轨迹；(b) 经任务增强生成的变体样本，搭配视觉语言模型生成的语言指令；(c) 场景增强变体：对首帧图像进行图到图（I2I）编辑后，再通过图到视频（I2V）生成得到。

消融实验证明，三类数据缺了任何一类，模型性能都会明显下滑。

RLDX-1 预训练数据集涵盖多种具身形态，包括单臂夹持器、双臂夹持器，以及搭载灵巧手的人形机器人平台，同时包含GR-1 人形机器人合成数据。

训练分三个阶段。预训练阶段，用大规模多实体数据集打基础，让模型掌握通用操作能力；

中期训练数据包含两大目标平台：ALLEX 平台与Franka Research 3（FR3）平台。ALLEX 平台的数据由自研遥操作数据和本研究生成流水线产出的合成数据组成；FR3 平台的数据则由自研遥操作数据与公开数据集 DROID 融合构成。

中训练阶段是关键的"能力注入"环节，专门用带有运动感知、长期记忆、物理感知标注的数据集进行强化，把这三项功能性能力刻进模型权重；

后训练阶段针对具体下游任务做精调，配套了一套自适应数据采集协议——先把任务拆解为原子动作基元，在变化维度上系统采样演示数据，再部署初版模型识别失败场景，针对性补充失败案例，迭代直到策略达标。

对于难度极高的任务，团队还引入了强化学习作为补充，采用RECAP框架将评论家训练与策略优化解耦。这里有个值得关注的设计：文本预测评论家。不新增任何预测头，直接复用VLM的文本生成接口，让模型以自回归方式输出整数形式的价值估计。

效果是实打实的：以电灯泡拧入任务为例，经过三轮迭代，模型完成任务所需帧数从1056帧压缩到353帧，尝试次数从12.7次降到4.1次，最终成绩甚至超过了人类遥操作水平。

PART 04

推理延迟是实验室到真实部署的最后障碍

这是学术界经常忽视、但工程界极为在乎的一个问题。

机器人控制是实时闭环系统。延迟每高一毫秒，执行动作时现实场景就又变化了一点，动作和观测之间的错配就又累积一分。对于在物理世界里操作的机器人来说，这不只是性能问题，而是安全问题。

RLDX-1为此设计了两级推理优化。图捕获优化解决的是框架层面的开销。PyTorch eager模式下每个算子单独启动，几百个算子的调度开销叠加起来相当可观；torch.compile会把前向传播切成多个子图，也无法彻底消除碎片化开销。RLDX-1将模型转换为静态图，实现端到端单次CUDA Graph捕获，一举消除图碎片化问题，相较eager模式实现约1.45倍加速。

内核融合优化则在计算层面继续压榨。针对视觉注意力、语言模型注意力、记忆注意力、RMSNorm残差叠加、SwiGLU激活等高频算子，分别设计融合内核，把多步串行操作合并为单次调用，减少显存带宽的往返消耗。

两级优化叠加，全模态推理延迟从71.2ms降至43.7ms，累计加速比1.63倍。在RTX 5090上，这已经满足实时控制的工程要求。从论文模型到可部署系统，这段距离往往比前面所有工作都难走，RLDX-1把这条路完整跑通了。

PART 05

实验结果：差距到底有多大？

数字才是最终的裁判。

仿真基准上，RLDX-1在LIBERO的平均成功率达到97.8%，在SIMPLER多个子集上全面领先GR00T N1.6和π0.5。通用操作能力并没有因为增加功能性模块而退步。

真实机器人上，差距开始被放大。在OpenArm人形机器人的泛化任务中，未见物体和未见任务的成功率双双提升至54.2%，而π0.5分别只有37.5%和45.8%。

到了ALLEX人形机器人的功能性任务，画风彻底变了。

传送带拾取放置任务测试运动感知，物体以变化速度在传送带上移动，需要预判轨迹而非追着打；GR00T N1.6和π0.5的成功率分别在33%和42%左右，RLDX-1达到83.3%。

盒中物体选择任务测试长期记忆，需要记住人刚才把东西放进了哪个盒子，而非依赖当前视觉观测；两个基线模型的成功率都在25%到33%之间，RLDX-1达到91.7%。

卡片滑取传递任务测试接触力控制，桌面高度存在变化，接触深度无法从视觉判断，需要物理信号介入；基线模型成功率同样在25%左右，RLDX-1同样达到91.7%。

整体而言，在ALLEX功能性任务上，基线模型平均成功率约40%，RLDX-1约90%。这个差距的本质不是RLDX-1的通用能力更强，而是基线模型从架构层面就没有这些能力，上限从一开始就封死了。

PART 06

结语与未来

RLDX-1模型最大的意义在于，它完整跑通了一条从"功能缺失诊断"到"架构设计"再到"工程部署"的完整链路。但研究团队已经说得足够清楚一个判断：靠"看"来操作的机器人，已经走到了天花板。将时序感知、记忆与物理感知纳入模型设计主干，而非依赖后处理或任务专用模块，很可能是通用机器人策略绕不开的方向。

论文链接：

https://arxiv.org/pdf/2605.03269