30000小时“垃圾数据”喂出10亿参数机器人大脑，性能暴涨48%！

2026-04-29100

机器人基础模型的军备竞赛，刚刚迎来一个新玩家。

北大、清华、银河通用、智元研究院联合团队推出的LDA-1B，直接把参数量拉到了10亿级别。这个数字背后，是一个更激进的想法：别再只盯着专家演示数据了，那些被扔进回收站的"垃圾数据"，可能才是机器人真正需要的营养。

传统的机器人训练路径很直接——找个熟练工，录下他的操作，让机器人照着学。这套行为克隆（Behavior Cloning）的打法在OpenAI、谷歌DeepMind手里玩得风生水起，但问题也很明显：数据利用率低得可怕。一段机器人失败的尝试？扔掉。一段人类随手拍的操作视频？质量不够，扔掉。一个不同机器人平台的数据？格式不兼容，还是扔掉。

LDA-1B的团队算了笔账：如果把这些被浪费的数据都用起来，会发生什么？

PART 01

把所有能动的数据都塞进去

他们组装了一个叫EI-30k的数据集，30000小时的具身交互数据，涵盖人类操作和机器人轨迹。这个规模在机器人领域已经算是"巨无霸"级别——要知道，之前业内最大的Open X-Embodiment数据集也就1000多小时。

但数据多不是重点，关键在于"杂"。这里面有成功的演示，也有失败的尝试；有高精度的机器人数据，也有手机随手拍的人类视频；有双臂机械臂的操作，也有灵巧手的精细动作。按照传统标准，这些数据质量参差不齐，很多根本不会被纳入训练集。

LDA-1B的做法是给不同质量的数据分配不同的任务。高质量的专家演示用来学策略（Policy），那些看起来"不够格"的数据则用来学习物理世界的动力学规律（Dynamics）。一个机器人抓取失败的视频，虽然不能直接模仿，但它告诉模型"这样抓会掉"——这就是动力学知识。

这个思路听起来简单，但实现起来有个技术难题：怎么让模型同时学会预测"下一帧画面长什么样"和"下一步该做什么动作"？

PART 02

在DINO的潜空间里做预测

团队的解决方案是把预测任务搬到DINO的潜在空间（Latent Space）里进行。DINO是Meta开发的视觉自监督模型，它能把图像压缩成高度抽象的特征表示。在这个空间里做预测，模型不需要关心"桌子是木头色还是白色"这种表面细节，只需要关注"物体在哪、怎么动"这些核心的物理信息。

这个设计带来两个好处：一是计算效率大幅提升，不用在像素级别做冗余的外观建模；二是跨场景泛化能力更强，因为模型学到的是抽象的物理规律，而不是具体场景的视觉特征。

该模型在一个统一的多模态扩散变换器框架内，联合对动作片段和未来DINO序列进行去噪。异构数据在视觉预测、动态学习和策略制定中发挥着既独特又互补的作用。

研究团队收集了 EI-30k，其中包含超过 30000 小时的各种人机交互数据，涵盖了不同的事件长度和操作任务。

架构上，LDA-1B采用了多模态扩散Transformer（Multi-modal Diffusion Transformer）。这个设计能处理异步的视觉和动作数据流，现实世界里，摄像头的帧率和机器人的控制频率往往不一致，传统模型很难处理这种不对齐的数据。扩散模型的引入让LDA-1B可以在10亿参数规模下稳定训练，这在之前的机器人模型里是很难做到的。

PART 03

三类任务，全面碾压

测试环节，团队选了三个最能体现机器人能力的场景：接触密集型任务（contact-rich）、灵巧操作（dexterous）和长时程任务（long-horizon）。

接触密集型任务考验的是机器人对力的感知和控制，比如插USB线、拧螺丝这种需要精确力反馈的操作。LDA-1B在这类任务上比之前的π0.5模型高出21%。

灵巧操作更难，需要多指协调配合，比如用灵巧手翻转魔方、操作工具。这里LDA-1B的优势更明显，领先幅度达到48%。

长时程任务则是对规划能力的考验，机器人需要完成一系列子任务才能达成最终目标。LDA-1B在这个维度上领先23%。

更有意思的是微调实验。团队故意用了一批"低质量"数据，那些在传统训练中会被直接丢弃的失败案例和不完整轨迹。结果显示，LDA-1B只用30%的这类数据就能让性能提升10%。这个发现颠覆了行业的常规认知：原来那些"垃圾数据"不仅不是负担，反而是宝藏。

PART 04

世界模型的另一种打开方式

LDA-1B的技术路线其实是在回应一个更大的问题：机器人基础模型应该怎么学？

目前主流的两条路线，一条是行为克隆，代表是OpenAI的机器人项目和Physical Intelligence的π0系列，核心是"看专家怎么做，我就怎么做"。另一条是世界模型（World Model），代表是Genie、DIAMOND这些工作，核心是"先理解物理世界的运行规律，再决定怎么做"。

行为克隆的问题是数据利用率低，只能从成功案例里学。世界模型的问题是之前的实现方式太粗糙，要么只做视频预测不管动作，要么数据集太小撑不起大规模训练。

LDA-1B走的是第三条路：把动力学学习、策略学习和视觉预测统一到一个框架里，让不同质量的数据各司其职。这个思路在理论上早就有人提出（Unified World Model），但真正做到10亿参数规模并且能稳定训练的，LDA-1B是第一个。

从工程角度看，这个工作最大的价值不是某个单点的技术突破，而是证明了一件事：机器人基础模型可以像语言模型那样，通过"吃"海量异构数据来扩展能力边界。那些被浪费掉的数据，只要用对方法，就能转化成模型的知识储备。

PART 05

数据饥渴症的解药？

机器人领域一直有个尴尬的现实：数据太贵了。录制一小时高质量的机器人演示数据，需要专业操作员、标准化环境、精密的传感器设备，成本可能高达数千美元。这导致即使是资金雄厚的实验室，也很难像训练语言模型那样用TB级数据来喂模型。

LDA-1B的方案提供了一个新思路：与其花大价钱录制完美数据，不如把那些"不完美"的数据利用起来。人类在YouTube上传的操作视频、机器人在调试过程中产生的失败案例、不同实验室用不同机器人平台收集的数据——这些原本被忽视的资源，现在都可能成为训练素材。

当然，这个工作也留下了一些悬念。论文里没有详细披露EI-30k数据集的具体构成和获取方式，这意味着其他团队想要复现这个规模的训练还有不小的门槛。另外，10亿参数的模型在实际部署时的计算开销也是个需要考虑的问题——毕竟机器人不像服务器，不能随便堆算力。

但至少在当下这个时间点，LDA-1B给机器人基础模型的竞赛提供了一个新的参照系：规模可以更大，数据可以更杂，方法可以更统一。接下来就看其他玩家怎么接招了。

论文地址：https://arxiv.org/abs/2602.12215

项目地址：https://pku-epic.github.io/LDA/

精彩推荐

30000小时“垃圾数据”喂出10亿参数机器人大脑，性能暴涨48%！

华威科70%市占率+新加坡签约，感知层龙头争夺全球触觉传感标准话语权！

2亿美元战略融资！物流巨头顺丰为何重金押注星动纪元？

索尼Ace登上《Nature》封面：物理AI迎来真正的破局时刻？

告别“训练造假”！Agent-World挖了1978个真实场景，智能体终于能落地不翻车

精彩文章

扫码手机阅读

30000小时“垃圾数据”喂出10亿参数机器人大脑，性能暴涨48%！

精彩推荐

关于我们

友情链接

商务合作