百万小时人类视频,如何成为机器人学习的“教科书”?

2026-05-14100人形机器人具身智能机器人技术及应用人工智能(AI)

机器人数据贵、难收集、场景窄,这是目前具身智能领域绕不开的硬伤。DROID数据集花了大量人力在真实环境里遥操作,收集到的数据规模仍然有限;OpenX把几十个机构的数据拼在一起,加起来也不过几千小时。

与此同时,互联网上存着海量人类活动视频——烹饪、搬运、组装、操作工具、多人协作——这些视频记录的,恰好是机器人最需要学习的那类行为。

Image
 

北京大学研究团队提出了一个叫作HumanNet的数据集,规模是100万小时的以人为中心的视频,配备了运动注释、手部和身体姿态标注、层级语义标签,以及专门为跨实体迁移设计的两条通路。这不是又一个“更大版本的Ego4D”,而是在数据规模、视角覆盖、标注体系和管道设计上同时做了一套系统性工作。

 

PART 01

为什么人类视频能用来训练机器人?

 

人类和机器人的运动空间存在本质差异:人手有26个自由度,机械臂通常只有6到7个;人的视角是头部稳定的第一人称,机械臂末端摄像头的运动模式完全不同。所以并不是所有人类视频都有用,被动旁观的视频、动作不连贯的视频、缺乏手与物体接触信息的视频,在具身学习里几乎没有价值。

Image
 

HumanNet对“以人为中心的视频”有明确的操作性定义:视频中必须包含具有物理意义的行为,比如操纵物体、使用工具、在任务相关空间里导航、组装或拆解物品、操作设备或界面、搬运物体、与他人协调,或执行涉及环境状态变化的多步骤程序。这个定义刻意排除了大量人类运动只是背景噪声的视频,或者动作在时间上不连贯、缺乏有效视觉证据的片段。

Image
 

围绕这个定义,数据集的设计遵循了四条原则。规模要足够大,目的是覆盖长尾活动,而不是在少数任务上饱和——100万小时这个体量,让那些稀有但物理上有信息量的行为(比如折叠柔性物体、处理反光容器、操作陌生家电)也能出现足够多次,不至于被稀释掉。视角要多样,第一人称和第三人称都保留,让模型能同时学到“执行者视角”的手部接触和意图,以及“观察者视角”的全身运动和场景动态。物理相关性是核心筛选标准,不是泛化的视觉多样性,而是对具身学习真正有用的线索:手与物体的接近程度、全身运动、环境状态变化、动作顺序、程序性结构、场景上下文。预训练就绪意味着数据必须按照现代大规模训练流水线的要求组织——分块、元数据索引、质量过滤、标注标签、运动注释,以及可选的文本或结构化标签对齐。

第三人称视频在捕捉全身运动、姿态和多人动态方面有优势;第一人称视频更能暴露手部动作、接触细节和以执行者为中心的意图。两种视角都保留,而不是只选其一,这是设计上的一个关键决定。

 

PART 02

从原始视频到标注数据,三段式管道怎么跑?

 

100万小时不是一个直接能用的数字,关键在于怎么从互联网上爬取、过滤、标注,最终得到能用于训练的片段。

数据收集阶段的核心逻辑是关键词驱动的搜索与检索。从一组种子关键词出发,通过关键词扩展、基于关键词的爬取与清洗、频道级爬取,以及整合现有数据源,构建出一个统一的关键词库,再以此驱动后续检索。来源包括视频平台搜索、通用网络搜索引擎、直接爬取的视频、开源数据集,以及团队在真实环境中自行采集的数据。自采集的部分填补了那些在公开平台上很难可靠获取的活动、视角和场景——主要是受控的第一人称和第三人称录制,覆盖日常环境中的任务。

Image
 

数据处理阶段把原始视频转化为片段级别的训练样本。每段视频要经过去重和归一化(消除近似重复的拷贝,统一帧率、分辨率和容器格式)、内容过滤(保留含有有意义人类动作和可观测运动的片段)、质量过滤(丢弃有严重运动模糊、大面积遮挡、静态画面或其他影响学习质量的问题片段)、场景切割(在视觉变化处切分长视频,避免不相关的活动被合并成一个样本),最后是视频剪辑(生成固定粒度的片段)。

标注阶段给处理后的片段加上几何层面和语义层面的监督信息。三维手部和身体姿态检测恢复细粒度运动结构;单目SLAM对满足稳定性和视差要求的第一人称片段估计相机轨迹;重定向模块把恢复出来的人体运动与统一的人形机器人骨架对齐——只有当重定向误差低于15毫米且有效帧覆盖率超过60%时,该片段才被标记为“机器人就绪”。同时,一个由大语言模型辅助的标注模块生成视频描述、运动描述和活动分类,然后与视频来源中继承的任何旁白或元数据做交叉校验。

最终产出的标注体系包含四个层面:运动(Motion)、身份(Identity,含被拍摄者ID、外观描述、语义运动序列、空间进展)、文本描述(Caption,含短描述和长描述),以及层级标签(Hierarchical Labels,从大类如“运动”到细类如“篮球-防守”三级展开)。

 

PART 03

100万小时数据长什么样?

 

语料库在语义覆盖和物理质量两个维度上分别做了统计分析。

从语义层面看,动作词汇由具有物理基础的操作动词主导,作用于反复出现的日常物体——这和数据集强调接触丰富、能引起环境变化的行为的设计意图一致。场景层级把片段分散到大量室内和室外环境中,而不是集中在某个单一领域。活动类别分布呈现明显的长尾形态。长尾形态本身就是支持100万小时规模的理由:稀有但物理上有信息量的行为,在这个量级下出现的次数足以贡献给表示学习,而在更小的数据集里它们会被轻易稀释。

Image
 

从物理质量层面看,经过质量过滤后保留的片段,姿态置信度集中在高分端,说明这些片段适合用于密集的姿态、手部和运动监督。运动分数和运动长度的分布都是重尾的,但被各自的统计量限制在合理范围内——语料库以短小、聚焦的交互单元为主,同时保留了足够多的较长、动作幅度较大的片段,用于时序上下文和程序性学习。按类别细看,体育和户外类别的片段更长、运动幅度更大,日常活动和游戏角色动作集中在较短、更细粒度的片段上。

Image
 

这个结构有实际的训练意义:高置信度、切分良好的子集承担接地气的监督任务,而更重尾的区域提供长尾行为所需的规模。把这两个维度的统计信息都暴露出来,可以让后续的混合监督训练方案把每个下游任务和语料库的合适切片匹配起来。

 

PART 04

用1000小时人类视频,能不能替代100小时机器人数据

 

实验设计在LingBot-VLA架构下做对照。LingBot是一个以Qwen为骨干的视觉-语言-动作模型,它的Qwen骨干用了20,000小时真实机器人数据训练过。论文对比了四种配置:

  1. 原始Qwen视觉-语言模型,没有任何机器人相关的后续训练
  2. Qwen加上100小时真实机器人CoBot数据适配
  3. Qwen加上1,000小时来自HumanNet的第一人称人类视频适配
  4. LingBot,其Qwen骨干用20,000小时真实机器人数据训练。
Image
 

所有变体都在同一个下游语料库上做后训练:100个任务,每个任务20个片段,共34小时机器人交互数据。后训练协议遵循LingBot-VLA的设计,只改变预训练组件的初始化方式——LingBot直接用它预训练好的VLM和动作专家;其他三个配置用对应的微调VLM加上重新初始化的动作专家。

结果是:1,000小时第一人称人类视频初始化的变体,在五个保留任务组上的验证损失,持续地缩小了通用网络规模语言-视觉初始化与机器人专用初始化之间的差距。更具体地说,这个变体在多个任务组上匹配了,在部分任务组上略微超过了,用100小时真实机器人CoBot数据初始化的变体——而且它在预训练阶段从未见过任何真实机器人。

这个结果说明的不只是“人类视频有用”,而是指向了一个更具体的结论:第一人称人类视频捕捉了以执行者为中心的线索、手与物体的接触模式,以及程序性结构,这些表示在迁移到机器人后训练之后仍然有效。在遥操作机器人数据有限的场景下,从自发的人类活动录像里提取可迁移的表示,可能是一条更可扩展、成本更低的路。

 

PART 05

数据集设计上还有哪些没解决的问题

 

人类行为不等于机器人行为。即便是100万小时的规模,人类中心的语料库也不能消除人类手部、身体、工具、移动方式与机器人控制空间之间的实体差距。数据集的预期价值在于表示学习和可迁移的先验,而不是直接一对一替代机器人数据。

规模本身带来噪声。开放世界的人类视频不可避免地包含模糊的标签、不一致的任务边界、缺失的元数据、视角不平衡,以及视觉质量参差不齐的问题。标注标签、姿态估计和运动注释改善了覆盖率,但也引入了它们自己的误差。这让透明地报告标注置信度和子集质量变得格外重要。

覆盖仍然不均匀。一个数据集可以非常大,同时在某些地理区域、社会经济背景、职业类型、相机视角、身体类型、家庭日常或公共活动上仍然有偏。100万小时的规模可能制造出一种普适性的幻觉,而实际上存在相当大的盲区。

隐私和安全问题不容忽视。第一人称录像可能包含旁观者、敏感室内环境、私人文件、屏幕内容或专有工作流程。第三人称录像可能包含可识别的人、住宅、工作场所、社交互动,或最初并非为机器学习重用目的而录制的活动。任何公开发布策略都必须包含许可证审查、打码政策、受限内容过滤、必要时的访问控制,以及关于包含或排除内容的清晰文档说明。

HumanNet的双重影响在论文里也明确写出来了:一方面,大规模人类中心数据可能加速辅助系统、机器人操作、程序理解、运动建模和通用物理AI研究;另一方面,同样的数据可能强化监控相关的感知系统,或者让模型继承来源材料中的社会和地理偏见。这不是一个被解决了的问题,而是数据集发布之后持续需要面对的张力。

从学术界对具身智能数据瓶颈的共识来看,HumanNet提出的方向——把人类视频视为机器人学习的可扩展基础,而不是次级替代品——在实验上得到了支持,但距离真正打通人类视频到机器人行为这条链路,还有相当多的工程和研究问题需要解决。这100万小时是一个起点,不是终点。

论文链接:

https://arxiv.org/pdf/2605.06747

项目地址:https://dagroup-pku.github.io/HumanNet/