人形机器人要想发挥作用,需要胜任多项任务。它们必须能够操纵各种各样的物体,从小型精密物体到大型重型物体。同时,它们需要协调整个身体,重新配置自身和周围环境,避开障碍物,并在应对意外情况时保持平衡。而大型行为模型(LBM),正是培养人形机器人这些核心能力的关键方向。
近日,波士顿动力公司与丰田研究院(TRI)的AI研究团队展开合作,为 Atlas 人形机器人开发大型行为模型(LBM),通过构建 “端到端的语言调节策略”帮助该机器人完成长远操控任务。波士顿动力表示,这些策略充分利用了人形机器人的各项功能,包括迈步、精确定位双脚、蹲伏、转移重心以及避免自身碰撞,所有这些对于解决现实的移动操控任务都至关重要。
▍Atlas是如何构建起通用化策略体系的?
该策略共分为四个流程,首先,通过真实机器人硬件和模拟环境中的远程操作,收集具体的行为数据。接着,对这些数据进行处理、注释与管理,将其纳入机器学习(ML)管道。随后,利用所有任务的全部数据训练神经网络策略。最后,借助任务测试套件评估策略,评估结果将指导后续额外数据的收集方向,以及确定可提升性能的网络架构或推理策略。

在策略的制定过程当中,波士顿动力遵循了三个核心原则:
第一:为最大化任务覆盖率,鉴于收集静态操控任务以外且兼具高质量、灵敏运动的数据存在挑战,该公司搭建了远程操作系统,将 Atlas 的模型预测控制器(MPC)与定制虚拟现实(VR)界面相结合,覆盖从手指灵活性到全身伸展运动的各类任务。
第二:其二是培训通才政策,基于领域内 “多任务数据训练的策略泛化与恢复能力优于单任务或少数任务专业策略” 的证据积累,波士顿动力采用多任务、语言调节策略,整合 Atlas 预训练数据、上身操控测试台(MTS)数据及 TRI Ramen 数据,以简化部署、共享政策改进并趋近解锁紧急行为。
第三:构建支持快速迭代与严谨科学的基础设施,通过结合模拟、硬件测试及面向生产规模的机器学习基础设施,有效探索数据与策略设计空间,持续提升机器人性能。

波士顿动力预测,人形机器人可以处理各种各样的操控任务。然而,在保持高质量、灵敏地运动的同时,收集静态操控任务以外的数据是一项挑战。
该公司建立了一个远程操作系统,将 Atlas 的模型预测控制器 (MPC) 与定制的虚拟现实 (VR) 界面相结合,涵盖从手指灵活性到全身伸展和运动等任务。
▍技术支撑:硬件、远程操作与VR系统
硬件配置:Atlas 本体拥有 78 个自由度(DoF),可实现广泛运动范围与高度灵活性;Atlas MTS 专注纯操控任务,拥有 29 个自由度,且其上半身在机械与软件层面与 Atlas 完全一致,仅省略躯干和下半身组件,二者共享的硬件与软件支持数据汇集训练。此外,Atlas 与 Atlas MTS 的每个夹爪均含 7 个自由度,可实现强力抓取、捏合抓取等多种抓取策略。
远程操作系统:波士顿动力依靠 Atlas 头部的一对 HDR 立体摄像机,为远程操作提供态势感知,并为策略提供视觉输入。远程操作系统基于公司成熟的 MPC 系统构建 —— 该系统此前已支撑 Atlas 完成跑酷、舞蹈及各类实际 / 非实际操作,能在保障机器人平衡、避免自碰撞的同时实现精确操作,突破硬件性能极限。
VR系统升级:VR 远程操作初始版本仅支持 “静止状态控制”,采用 “用户与机器人一对一映射”(如用户手移动 1 厘米,机器人同步移动 1 厘米),虽能完成蹲下取物、挺直够高物等任务,但无法实现 “动态调整双脚位置与迈步”,限制任务范围。
为支持移动操控,波士顿动力新增两个足部追踪器,实现 “足部一对一追踪”,并扩展远程操作控制逻辑,使 Atlas 的站姿模式、支撑多边形、踏步意图与操作员完全匹配。升级后,机器人可完成更复杂动作 —— 例如以 “宽姿势 + 弯曲膝盖” 打开地面蓝色手提箱并取物,且不与箱子碰撞。同时,定制 VR 软件为操作员提供实时反馈,包括机器人状态、控制目标、传感器读数、触觉反馈等,通过增强现实、控制器触觉等功能,实现操作员与机器人的 “身体和感官同步”。
▍LBM技术架构与模拟应用
波士顿动力以TRI的LBM为基础,构建类似扩散策略的架构,该架构采用 4.5 亿参数的扩散变压器架构与流匹配目标。该策略以本体感觉、图像(30Hz 输入)为条件,接收语言提示指定目标,利用观察历史预测 1.6 秒(48 个动作)的动作块,通常执行 0.8 秒(24 个动作)的动作。Atlas 策略的观察空间涵盖头戴式摄像头图像与本体感觉,动作空间涵盖左右手爪关节位置、颈部偏航、躯干姿势、左右手姿势及左右脚姿势。
模拟技术在研发中发挥关键作用,波士顿动力的模拟堆栈忠实还原硬件与软件堆栈,其中包括快速迭代远程操作系统,编写单元测试与集成测试,保障研发进度,开展高效培训与评估,避免在硬件上进行 “慢速度、高成本、难重复” 的测试。此外作为联合训练数据源,波士顿动力模拟堆栈可为硬件部署的多任务、多体现策略提供数据支持。同时,模拟与硬件平台可共享数据管道、可视化工具、训练代码、VR 软件及接口,降低研发成本。
▍从“完成任务”到“智能应对意外” 操控能力全面升级
通过 LBM 训练,Atlas 的能力已突破传统机器人的局限,不仅能完成复杂长程任务,更能自主应对突发状况,且策略部署门槛大幅降低。

在“Spot Workshop”演示中,Atlas 完成了三项连贯子任务,展现全身协同能力。过程中,Atlas需同时实现 “迈步调整位置”“蹲伏降低重心”“手指精确捏合”等动作,且能避开自碰撞与环境障碍物。这些正是 LBM 对“全身精准度、灵活性、力量”整合的体现。

依托 Atlas MTS上的单一语言调节策略,Atlas可完成多类任务:既包括简单的拾取、放置,也涵盖系绳、翻转吧台凳、展开铺平等复杂操作,甚至能操控22磅(9.9 公斤)的汽车轮胎。这些任务因 “几何形状可变形”“操作序列复杂”,传统机器人编程技术难以实现,但LBM具备 “演示即学习”的优势。只要人类能完成演示,机器人即可学会。

策略在推理阶段可灵活调整执行速度,无需改变训练时间:通过预测未来行动轨迹及对应时间,波士顿动力可将策略速度提升 1.5 倍至 2 倍,且不显著影响 MTS 与 Atlas 完整平台的性能。尽管部分任务动态会限制速度提升,但在特定场景下,机器人速度可超越人类远程操作极限。
▍结语与未来:
到目前为止,波士顿动力公司已经证明,该技术可以训练多任务语言调节策略,从而控制 Atlas完成涉及运动和灵巧全身操控的长距离任务。该公司表示,其数据驱动方法具有通用性,几乎可以用于任何可通过远程操作演示的下游任务。
波士顿动力公司表示,尽管对目前的成果感到鼓舞,但也承认仍有许多工作要做。该公司表示,在既定的任务和性能基准的基础上,计划专注于扩展其“数据飞轮”,以提高吞吐量、质量、任务多样性和难度,同时探索新的算法理念。