国家出手,这个具身开源数据集社区,为什么让乐聚、蚂蚁、宇树都来了?

Jack2026-03-171368具身智能

2026年是人形机器人量产元年,也或许是具身智能数据规模化元年。

美国银行全球研究的报告预测,到2060年,全球人形机器人数量将达到30亿台,按人均计算将超过目前约15亿辆汽车。美国银行估计,其中约62%的人形机器人(大约20亿台)将进入家庭。

但一个问题也被美国银行所提出,那就是人形机器人等具身智能技术进步仍受限于高质量操作数据的匮乏,以及难以复现人类级别的灵巧度与即兴应变能力。



 

原因在于人形机器人产业正面临“本体与小脑趋于成熟、大脑成为规模化应用瓶颈”的核心矛盾。过去几年,运动控制技术的突破让机器人学会了行走、跳跃、抓取,甚至后空翻,本体能力不断刷新人们的认知。然而,当这些机器人被投放到真实的生产生活场景中时,一个尴尬的现实逐渐浮现:它们能精准地完成预设动作,却难以应对环境的一点变化;它们能识别物体,却不懂如何根据任务灵活调整。

这意味着全球顶级机器人本体以及运动控制小脑虽然已经趋于成熟,但在人形机器人落地的关口,大脑却掉了队,并且开始制约产业规模化。

01.

为什么依然需要真机数据?

大脑主要负责机器人理解任务、规划决策、精准执行。那么大脑进化靠什么?数据。

机器人大讲堂了解到,2025年上半年,全球开源具身数据集累计时长不足1000小时,证明了这一问题的急迫性。

面对数据困局,行业初步形成了三条数据采集路线,分别是真机数据、UMI遥操作数据、合成数据。在数据采集和预训练阶段,合成数据和UMI数据具备天然规模化优势,因为其可以快速生成海量样本,覆盖基础动作和通用场景,是模型建立初步认知能力的主要原料。但到了强化学习阶段,Sim2Real Gap鸿沟却横亘在前,机器人在虚拟环境里训练得再好,一到真实物理世界,抓错力道、判断失误、动作卡顿的问题就接踵而至。

真机数据一定程度上是这个问题的最优解。因为它不仅能提供不可替代的真实物理交互,物理细节更多,而且可以大幅降低模型训练后处理成本,让强化学习的收益直接兑现在真实场景中。此外,多机采集的时空一致性更强,尤其在多台机器人协同采集场景下,数据具备高度时空一致性,能够有效降低模型训练的冗余负担,提升训练效率。

如果说大脑进化需要数据燃料,那么如今大多数业内人士已经发现,真机数据就是这种燃料中最高能量密度的那一类。其在模型落地的关键阶段,具有不可替代的核心地位。而训练场,正是规模化、系统化生产这种核心燃料的基础设施。它有望从根源上破解行业高质量数据供给不足的痛点,降低全行业的研发门槛与重复投入,加速具身模型迭代与产业落地。

我国已经认识到这个问题,并且正快速着手解决。机器人大讲堂获悉,2026年3月16日,在“开放原子园区行”开源数据集专场上,由工信部指导的唯一国家级开源基金会开放原子开源基金会牵头,联合中国信通院、上海人工智能实验室、百度、乐聚机器人、蚂蚁灵波、宇树、库帕思等十余家产学研核心机构,宣布启动国内首个具身智能开源数据集社区,并成立人工智能开源社区开源数据集工作组,加速数据流通。

02.

国家为什么要亲自下场?

理解了真机数据的战略价值,才能理解国家为什么要亲自下场。因为一个行业的数据基础设施,如果长期处于无序发展状态,就会形成系统性风险,整个产业的研发效率将被整体压低。但这恰恰又是需要顶层协调才能解决的系统性困局。

开放原子开源基金会的入局,解决的正是这个问题。作为工信部指导的唯一国家级开源基金会,机器人大讲堂从会上获悉,它的核心作用不是替代市场卖数据,而是提供市场机制,建立统一的数据治理框架、权威的质量评估标准、可信的数据流通机制,也就是国家层面开始出手,建设公共基础设施。


此外,“开放原子具身智能开源数据集社区”正式启动。该社区由开放原子开源基金会发起建立,乐聚机器人牵头建设,联合蚂蚁灵波、库帕思、上海交通大学、哈尔滨工业大学、同济大学、宇树、具识智能、具脑磐石、无问智行等核心单位共建,是国家级平台发起的第一个具身智能开源数据集社区,致力于成为全球具身智能领域有影响力、有吸引力的真实数据资源枢纽与协作创新平台。



 

开源数据集社区专注于三件事:制定数据集的开源治理框架、建立行业质量评估标准、推动数据资源在产学研之间的规范流通与互信共享。这三件事,对应的正是行业长期悬而未决的标准不统一、质量参差不齐、开放共享极难落地三大痛点。换句话说,这个社区要做的是给整个具身智能数据行业定标准。因为有了统一的度量衡,数据才能真正流通;数据能流通,研发门槛才能整体下降;门槛下降,具身智能规模化的时间表才能真正提速。

从这个角度看,国家级平台的介入,将会是具身智能数据基础设施建设从企业行为上升至产业战略的标志性事件。

03.

乐聚、蚂蚁灵波、宇树为何入局?

理解了宏观背景,再来看这次参与共建的三家最具代表性的企业——乐聚机器人、蚂蚁灵波、宇树。它们来自不同的赛道,有着截然不同的优势,但选择在同一个平台汇聚,背后都有清晰的战略逻辑。

乐聚是这次社区的牵头建设单位,这个位置,是用真实的数据积累换来的。在全国14个人形机器人训练场中,乐聚独立建设了9个,覆盖北京、上海、济南、青岛、苏州、合肥、郑州、广州、芜湖等核心城市,形成了目前国内规模最大的真机数据采集网络。其中,北京训练场更是全国规模最大的单体训练场。基于这一网络,乐聚年产真机数据能达2500万条,累计交付20000小时真机数据,已初步跑通采集—开源—交易的完整数据商业链路。



 

LET数据集系列的成绩,则是市场对这种积累最直接的认可。该数据集全平台总下载量突破100万次,登顶全网开源具身数据下载榜榜首,成为国内最大具身真机数据提供商。更关键的是,乐聚已经把数据价值兑现到了真实工业场景中。基于数据驱动,乐聚率先实现了国内首次可规模化部署的工业技能交付,形成三大落地解决方案,包括为海晨物流打造的塑料箱拆垛方案、为一汽红旗打造的纸箱拆垛方案、为新时达打造的SMT料盘出库方案。数据,在乐聚这里已经成为生产线上的实际产出。

机器人大讲堂注意到,在此次会议上,乐聚还同步全球首发了OpenLET触觉灵巧操作+全身运动数据集,填补了行业空白。这一数据集是全球首个融合触觉灵巧操作与全身高动态运动的稀缺数据集,其能力特性明显,包括触觉维度包含6×12×10指尖压力矩阵、六维腕部力传感器(精度±0.5%)、RGB-D视觉数据及多场景语义标注,实现视觉-力触-动作全链路对齐。运动维度则涵盖41个关节精细控制信号,将任务场景从基础行走延伸至深度下蹲、弯腰等高难度全身联动任务,动作节奏与平衡维持高度拟人。



 

对乐聚而言,牵头建设国家级开源数据社区,或许是一次战略升维,即从数据供给方,升级为整个行业数据生态的主导构建者。因为主导标准定义的企业,未来将天然拥有产业话语权。



 

而对宇树、蚂蚁灵波这类参与方而言,参与开源数据社区同样是一场双向投资,一方面,社区的真机数据可以为机器人本体上的模型训练提供直接支撑,提升产品的智能化上限;另一方面企业可以深度参与国家级开源生态,拿到高质量、多场景、有标准的真机数据,用自己的核心能力反哺社区生态,形成正循环。

04.

社区三大目标:一个完整的产业飞轮

国家牵头、重点企业参与,决定了这一战略布局的辐射广度。如果仔细看社区的三大目标,会发现其同样有着不错的发展纵深。会上,开放原子具身智能开源数据集社区发布了三大建设目标,旨在构建一个能持续进化的产业飞轮。

一是建开放数据平台,提供数据处理—模型训练—仿真测试—真机部署一站式工具链;二是建数据交易生态,联动北数所、库帕思等数据交易平台,让数据资产真正流通;三是加速技术与产业深度融合,包括举办顶级赛事、孵化创新团队。

三个目标,构成了一个清晰的正向飞轮。通过高质量数据降低研发门槛,吸引更多开发者入场;而后,更多开发者会带来更丰富的应用场景,反哺数据的多样性与质量;数据质量提升驱动模型能力突破,则带动更多产业落地案例;落地案例验证数据价值,更将进一步扩大社区规模与吸引力。

这本质上已经不是一个关于数据的典型事件,因为飞轮一旦转动,将产生持续的自我强化效应,这会使其成为一个关于谁来定义人形机器人产业基础设施的故事。国家平台出面,产业龙头入局,开源标准先行,这套组合拳打出来,具身智能数据从企业私有走向开源共享的临界点,可能比大多数人预期的,来得更快。

05.

真正的意义会在哪里?

2026年,具身智能的竞争,将不是单一维度的竞争。算法能力、本体硬件、场景资源、数据积累这四个要素,未来正在共同决定一家企业乃至一个产业的天花板在哪里。

过去几年,行业的注意力大多集中在前两者,谁的算法更强、谁的本体更稳。但越来越多的从业者意识到,在小脑趋于成熟的当下,真正拉开差距的竞争,正在迁移到数据层面。

数据,将是具身智能的下一个主战场。而且这场战役的关键,不在于谁能积累最多的私有数据,而在于谁能构建起最高效、最可信、最具生命力的数据生态。私有数据积累,是存量竞争;开源生态建设,是增量竞争。因为存量竞争拼的是资源,增量竞争拼的是号召力。

从这个角度看,国家级平台牵头建立开源数据社区,联合产学研全链条力量共建行业数据基础设施,其战略价值远不止于解决当前的数据供给问题,更在于为中国具身智能产业,在全球竞争中构建一道以数据生态为护城河的系统性优势。

乐聚、蚂蚁灵波、宇树的到来,代表的是中国人形机器人行业头部力量的战略共识:数据基础设施建设,不是一家企业能独自完成的事,但不能等待,必须现在开始。这不是一个关于数据的故事,这是一个关于谁来定义人形机器人产业下一阶段竞争规则的故事。

2026年,大脑之战正式打响。而真机数据作为这场战争的燃料,如今也已经开始规模化量产。那么,最先建好加油站的人,必将决定这场赛跑的节奏。

OpenLET触觉灵巧操作+全身运动数据集链接: