30000小时“垃圾数据”喂出10亿参数机器人大脑,性能暴涨48%!

2026-04-29100

机器人基础模型的军备竞赛,刚刚迎来一个新玩家。

北大、清华、银河通用、智元研究院联合团队推出的LDA-1B,直接把参数量拉到了10亿级别。这个数字背后,是一个更激进的想法:别再只盯着专家演示数据了,那些被扔进回收站的"垃圾数据",可能才是机器人真正需要的营养。

Image
 

传统的机器人训练路径很直接——找个熟练工,录下他的操作,让机器人照着学。这套行为克隆(Behavior Cloning)的打法在OpenAI、谷歌DeepMind手里玩得风生水起,但问题也很明显:数据利用率低得可怕。一段机器人失败的尝试?扔掉。一段人类随手拍的操作视频?质量不够,扔掉。一个不同机器人平台的数据?格式不兼容,还是扔掉。

LDA-1B的团队算了笔账:如果把这些被浪费的数据都用起来,会发生什么?

 

PART 01

 

把所有能动的数据都塞进去

 

他们组装了一个叫EI-30k的数据集,30000小时的具身交互数据,涵盖人类操作和机器人轨迹。这个规模在机器人领域已经算是"巨无霸"级别——要知道,之前业内最大的Open X-Embodiment数据集也就1000多小时。

Image
 

但数据多不是重点,关键在于"杂"。这里面有成功的演示,也有失败的尝试;有高精度的机器人数据,也有手机随手拍的人类视频;有双臂机械臂的操作,也有灵巧手的精细动作。按照传统标准,这些数据质量参差不齐,很多根本不会被纳入训练集。

LDA-1B的做法是给不同质量的数据分配不同的任务。高质量的专家演示用来学策略(Policy),那些看起来"不够格"的数据则用来学习物理世界的动力学规律(Dynamics)。一个机器人抓取失败的视频,虽然不能直接模仿,但它告诉模型"这样抓会掉"——这就是动力学知识。

这个思路听起来简单,但实现起来有个技术难题:怎么让模型同时学会预测"下一帧画面长什么样"和"下一步该做什么动作"?

 

PART 02

 

在DINO的潜空间里做预测

 

团队的解决方案是把预测任务搬到DINO的潜在空间(Latent Space)里进行。DINO是Meta开发的视觉自监督模型,它能把图像压缩成高度抽象的特征表示。在这个空间里做预测,模型不需要关心"桌子是木头色还是白色"这种表面细节,只需要关注"物体在哪、怎么动"这些核心的物理信息。

这个设计带来两个好处:一是计算效率大幅提升,不用在像素级别做冗余的外观建模;二是跨场景泛化能力更强,因为模型学到的是抽象的物理规律,而不是具体场景的视觉特征。

Image
 

该模型在一个统一的多模态扩散变换器框架内,联合对动作片段和未来DINO序列进行去噪。异构数据在视觉预测、动态学习和策略制定中发挥着既独特又互补的作用。

Image
 

研究团队收集了 EI-30k,其中包含超过 30000 小时的各种人机交互数据,涵盖了不同的事件长度和操作任务。

架构上,LDA-1B采用了多模态扩散Transformer(Multi-modal Diffusion Transformer)。这个设计能处理异步的视觉和动作数据流,现实世界里,摄像头的帧率和机器人的控制频率往往不一致,传统模型很难处理这种不对齐的数据。扩散模型的引入让LDA-1B可以在10亿参数规模下稳定训练,这在之前的机器人模型里是很难做到的。

 

PART 03

 

三类任务,全面碾压

 

测试环节,团队选了三个最能体现机器人能力的场景:接触密集型任务(contact-rich)、灵巧操作(dexterous)和长时程任务(long-horizon)。

Image
 

接触密集型任务考验的是机器人对力的感知和控制,比如插USB线、拧螺丝这种需要精确力反馈的操作。LDA-1B在这类任务上比之前的π0.5模型高出21%。

Image
 

灵巧操作更难,需要多指协调配合,比如用灵巧手翻转魔方、操作工具。这里LDA-1B的优势更明显,领先幅度达到48%。

长时程任务则是对规划能力的考验,机器人需要完成一系列子任务才能达成最终目标。LDA-1B在这个维度上领先23%。

更有意思的是微调实验。团队故意用了一批"低质量"数据,那些在传统训练中会被直接丢弃的失败案例和不完整轨迹。结果显示,LDA-1B只用30%的这类数据就能让性能提升10%。这个发现颠覆了行业的常规认知:原来那些"垃圾数据"不仅不是负担,反而是宝藏。

 

PART 04

 

世界模型的另一种打开方式

 

LDA-1B的技术路线其实是在回应一个更大的问题:机器人基础模型应该怎么学?

目前主流的两条路线,一条是行为克隆,代表是OpenAI的机器人项目和Physical Intelligence的π0系列,核心是"看专家怎么做,我就怎么做"。另一条是世界模型(World Model),代表是Genie、DIAMOND这些工作,核心是"先理解物理世界的运行规律,再决定怎么做"。

行为克隆的问题是数据利用率低,只能从成功案例里学。世界模型的问题是之前的实现方式太粗糙,要么只做视频预测不管动作,要么数据集太小撑不起大规模训练。

LDA-1B走的是第三条路:把动力学学习、策略学习和视觉预测统一到一个框架里,让不同质量的数据各司其职。这个思路在理论上早就有人提出(Unified World Model),但真正做到10亿参数规模并且能稳定训练的,LDA-1B是第一个。

从工程角度看,这个工作最大的价值不是某个单点的技术突破,而是证明了一件事:机器人基础模型可以像语言模型那样,通过"吃"海量异构数据来扩展能力边界。那些被浪费掉的数据,只要用对方法,就能转化成模型的知识储备。

 

PART 05

 

数据饥渴症的解药?

 

机器人领域一直有个尴尬的现实:数据太贵了。录制一小时高质量的机器人演示数据,需要专业操作员、标准化环境、精密的传感器设备,成本可能高达数千美元。这导致即使是资金雄厚的实验室,也很难像训练语言模型那样用TB级数据来喂模型。

LDA-1B的方案提供了一个新思路:与其花大价钱录制完美数据,不如把那些"不完美"的数据利用起来。人类在YouTube上传的操作视频、机器人在调试过程中产生的失败案例、不同实验室用不同机器人平台收集的数据——这些原本被忽视的资源,现在都可能成为训练素材。

当然,这个工作也留下了一些悬念。论文里没有详细披露EI-30k数据集的具体构成和获取方式,这意味着其他团队想要复现这个规模的训练还有不小的门槛。另外,10亿参数的模型在实际部署时的计算开销也是个需要考虑的问题——毕竟机器人不像服务器,不能随便堆算力。

但至少在当下这个时间点,LDA-1B给机器人基础模型的竞赛提供了一个新的参照系:规模可以更大,数据可以更杂,方法可以更统一。接下来就看其他玩家怎么接招了。

 

论文地址:https://arxiv.org/abs/2602.12215

项目地址:https://pku-epic.github.io/LDA/