重磅︱国地中心发布首个权威认证百万规模异构数据集—“白虎”,打造具身智能机器人训练数据新标杆!

2025-06-022187具身智能

在机器人智能不断迈向自主化、通用化的进程中,数据的战略地位日益凸显。面对现实世界中任务多样、场景复杂、形态多变的挑战,具身智能模型的泛化能力已成为制约机器人从“特定任务执行器”向“通用智能体”跃升的关键瓶颈。仅依赖同质、封闭式、极度垂直的数据来源,难以支撑未来机器人系统的快速迭代演进与泛化能力突破。

 

5月29日,为有效破解机器人行业及具身智能领域的数据瓶颈难题,国家地方共建人形机器人创新中心(以下简称"国地中心")于2025张江具身智能开发者大会上正式发布"白虎"数据集

 

数据集于2025年初在国地中心建设的全球首个异构人形机器人训练场完成采集工作。"白虎"数据集作为全球首个规模突破百万量级的异构机器人数据集,具有以下显著特点:数据源自真实应用场景,全面覆盖多种全尺寸人形机器人、类人形轮式机器人以及机械臂等异构平台,并经过严格的质量控制流程采集与多维度验证。

 

目前,数据集已通过中国信息通信研究院组织的具身智能数据集质量评估,获得官方颁发的《数据集质量检测报告》及《具身智能数据集质量评估证书》,成为我国首个获得信通院权威认证的具身智能机器人数据集这一成果为行业构建了标准化、高兼容性的数据基础设施,标志着我国具身智能机器人训练数据建设正式迈入高质量发展新阶段。

 

 

 

1 跨平台异构融合,覆盖多款机器人本体

 

长期以来,数据采集和模型训练多基于孤立平台,导致数据格式割裂、标准不统一,难以实现跨平台迁移与泛化。

 

为打破这一壁垒,国地中心依托训练场资源,建立可适配多种机器人本体数据以及人体运动数据的闭环链路。通过统一数据规范与多元任务设计,打造出数据标准高度统一、机器人本体与任务形态高度多样的异构采集体系,具备高密度稳定采集能力,基于此体系诞生的“白虎”数据集,为具身基础大模型训练、评估与泛化验证提供坚实数据闭环能力支撑。

 

 

“白虎”数据集涵盖了多款机器人本体,包括:国地中心青龙、PortaGrip便携式采集设备、智元A2-D、智元A2、星海图R1、傅利叶GR-2、乐聚夸父、松灵Cobot Magic、Franka Panda等平台,涵盖全尺寸人形机器人、类人形轮式机器人、机械臂等多种形态具身平台。

 

其中,青龙数据占比约33.7%,便携式采集设备占比约5.9%,智元A2-D和A2数据占比分别为28.2%和9.3%,星海图R1占比13%,傅利叶GR-2占比3.8%,乐聚夸父占比1.5%。

 

此外,“白虎”数据集中还包含约2.9%的动捕人体运动数据,为全身行为生成与动作模仿等技术实现提供了宝贵的真实数据。

 

2 多场景真实模拟,贴近复杂应用环境

 

“白虎”数据集围绕五大主要应用场景系统构建,全面覆盖机器人在现实生活与生产中的关键应用领域,可显著提升模型的环境感知与跨场景泛化能力,为机器人走出实验室、实现复杂现实环境中的稳定应用与协作提供坚实数据支撑,推动具身智能与通用模型训练迈向新阶段。

 

 

 

3 多本体多任务协同训练,构建一专多能机器人智能体系

 

"白虎"数据集构建了多维度任务体系,通过抓取、放置、递接等原子技能的组合调度实现任务结构化拆解,形成多层级、可跨场景复用的机器人能力框架。

 

数据采集横跨多个具有代表性的机器人本体,每一平台均执行多种任务类型,并在不同真实场景中完成高质量采集,实现了多本体、多任务、跨场景的系统性数据构建。

 

 

4 多样目标物交互,拓展操控学习边界

 

“白虎”数据集构建跨场景、跨任务的操作目标体系,覆盖上百类具有代表性的真实物体,物体来源广泛,包括家庭日用品、厨房器具、商超商品、物流包裹、工业构件、工具部件,以及柔性材料与非规则形态物品,在形状、尺寸、重量、材质刚柔性和表面质感等方面高度多样。

 

 

 

5 覆盖短中长时间尺度,支撑行为层级建模

 

“白虎”数据集通过对任务执行过程的全程记录,构建了涵盖短中长多尺度时间跨度的轨迹数据体系。短程轨迹主要涉及抓取、点击及按钮触发等动作,中长程轨迹涵盖递交、开关等任务,长程轨迹则对应清洁打扫、上下料等连续复杂操作。层级化轨迹设计促进了模型对动作节奏、目标阶段性及时序逻辑的深度理解,有效实现了从低层动作控制到高层任务规划的层级行为建模闭环。

 

青龙

多个电池分拣

青龙

风扇装配

智元A2D

冰箱拿取物品

青龙-蔬菜分拣

青龙-插花

智元A2D-铰链盒上下料

傅利叶GR2-桌面操作

青龙-桌面操作

青龙-按按钮

星海图R1-扫码

智元A2-递物

乐聚夸父-扫码

星海图R1-流水线上料

 

6 覆盖百种原子技能,构建机器人行为最小单元体系

 

“白虎”数据集系统性规范化标注了百余种原子技能(如抓取、推动、拉取、递交、放置、插入等),作为具身智能机器人复杂操作的最基础单元,可为模型理解与生成复杂任务行为提供关键操作表征。

 

 

7 数据集高质量审核与校验

 

国地中心采取了全面的数据质量控制措施构建“白虎”数据集,通过系统化设计的采集流程管理,不断提升数据质量。结合数据质量相关标准,建立了全方位的数据质量检测体系,保证整体数据质量。

 

 

8 完备高效数据集工具链

 

"白虎"数据集同时配套提供完备的数据工具链,用户可快速查看各类具身数据,包括具体数值、关节运动曲线、相关图像及视频内容,从而直观分析数据特征,高效挖掘数据价值。

 

通过多维度可视化呈现,简化复杂数据的解读过程,提升数据使用效率。同时配套提供Python SDK,可以实现“白虎”数据集数据格式同开发者常用的LeRobot开源框架数据格式之间进行便捷的数据转换。

 

 

 

9 筑牢通用智能根基,开辟具身智能新时代

 

国地中心基于主流具身智能算法模型,以真实数据驱动-模型训练迭代-实体应用闭环为核心路径,基于“格物-致知”具身智能开发平台,在青龙、傅利叶GR-2等多款人形机器人以及Franka等机器人本体上,进行了系统性实验评估测试,相比单一本体数据集,跨本体任务迁移成功率提升超50%;复杂操作任务执行成功率最高达95%以上;在未见物体、未见任务、未见场景的零样本任务中,首次执行成功率最高可达到85%。

 

 

同时,“白虎”数据集一举攻克了数据体量、工程标准、应用广度与智能深度四大关键领域的难题,为行业带来颠覆性变革。通过统一结构和严格质量流程,解决了行业数据割裂与标准不一问题,构建了多本体、多任务、多场景、高多样目标物的协同数据采集体系,为通用具身智能模型训练提供了真实、丰富、结构化的数据基础,显著提升机器人在复杂环境中的任务迁移、复杂操作、零样本泛化能力,将有力支撑具身智能模型向通用化、实用化发展,为机器人技术的产业化应用奠定坚实数据基础。

 

2025年张江具身智能开发者大会上,国地中心正式发布“白虎”数据集。未来将持续迭代,诚邀产学研各界共建开放协作生态,助力通用机器人迈向更高智能、更强泛化的新阶段!

 

2025年5月29日国地中心携手“龙跃”大模型、“白虎”数据集、“格物致知”平台和两项标准,与您共筑智能未来!


 

来源:人形机器人世界