美国西北大学 | 使用扩散策略生成机器学习模型来预测辅助机器人动作

2024-01-030人工智能（AI）

凭借卓越全向移动能力，全向移动协作机器人可适应各类复杂环境，在多个领域都具有巨大应用潜力。

随着机器人技术的迅猛发展，关于全向移动协作机器人的应用已扩展至多个领域，其相关研究也正逐渐成为焦点。

在诸多相关研究中，如何提高机器人协作能力和适应性成为越来越多研究人员关注的课题。

前不久，来自美国西北大学MSR项目的研究人员就以西北大学研究人员自主研发的全向移动协作机器人“omnid mocobots”（又名：omnids）为载体展开了一系列深入研究。

其研究不仅涉及到升级全能机器人的机载系统，更主要的目标是研究如何利用生成机器学习模型来预测辅助动作。

为了实现这一目标，研究人员对可利用扩散模型生成机器人动作的扩散策略进行了探索，这不仅有望提升机器人的动作生成能力，还可帮助机器人在未知环境中进行有效的探索和学习。

接下来，一起来看看这一项目的具体内容吧！

▍准备工作：使用 Omnid 进行辅助动作预测

全能系统

研究人员将全向移动机器人设计为一种可以帮助人类操作员操纵潜在的大型、精致、灵活和/或铰接式有效载荷的辅助工具。

每个全向机器人由一个全向移动底座和顶部的串联弹性执行器驱动的Delta并联机械手组成。

在“浮动”模式下，机器人的机械手受到力控制，以消除有效负载的重力并将接触力归零。移动底座被置于末端执行器下方的中心，这种设计为研究人员轻松引导全能移动机器人携带的有效负载提供了极大便利。

为了更进一步探索通过扩散政策等模型应用生成行动预测是否可以提高全向机器人在协作任务中的表现，研究团队设计了几种潜在的系统架构来探索这个问题。

在每种架构中，生成模型用于生成一个动作，然后由系统执行。每个架构中的模型都将以下内容作为输入：

末端执行器 X/Y/Z 位置、速度和力

云台X/Y/Z轴旋转

来自浮动控制器的底座扭转（可选）

来自三个摄像机（头顶、水平和全向摄像机机载）的图像数据（可选）

力预测

力预测背后的想法是，如果模型可以预测人类对末端执行器施加的力，则力控制器可以抢先施加该力来协助人类。然后，预测的力可以被馈送到末端执行器的力控制器中，作为施加到末端执行器的附加力。或者，可以从预测中减去反馈末端执行器力值，因此只有“残差”被馈送到力控制器中。

位置预测

类似地，位置预测侧重于预测末端执行器的位置（相对于其原始位置）并通过位置控制器抢先命令末端执行器进行该预测。

基本扭曲预测

最后，基本扭曲预测可以完全取代浮动控制器，也可以用“剩余”值对其进行增强。通过这种架构，基地将遵循预测人类行为的扭曲。

▍生成动作：扩散策略的具体运作

扩散模型

于2015年被推出的扩散模型是一种生成机器学习模型的方法，可以从高度复杂的概率分布中进行采样。该类模型的一个经典用途是图像生成，即通过一组图像训练模型，模型可以生成近似输入集的新图像。

数据集上训练的简单模型示例

该过程从输入数据集中获取图像，并在k 个时间步长内逐渐向其中引入越来越多的高斯噪声。一旦添加了足够的噪声，所有原始图像数据都会丢失，剩下的就是高斯噪声。

随后可以训练神经网络以获取扩散时间步长k和该时间步长的噪声图像，并“预测从前一个时间步长添加到该图像的噪声”。

一旦网络被训练，这个过程就可以逆转。可以生成纯粹由随机高斯噪声组成的图像。然后，在k 个时间步长上，模型迭代地“预测并消除噪声”，直到创建新生成的图像。

更重要的是，该模型还可以以其他输入为条件，例如文本提示。从较高的层面来看，这就是许多流行的图像生成模型（例如稳定扩散和 DALL-E 3）根据文本提示生成图像的方式。

小型摩托车图像的扩散过程

从数据中“去除噪声”（即从无到有中恢复信息）是不可能的实现的，因此将反向扩散过程通俗地描述为“去除噪声”以生成新图像是不准确的。相反，扩散模型正在学习任意分布和高斯分布之间的传递函数。这是非常有用的，因为它允许人们从高斯分布（采样很简单）中获取样本，并将其转换为所选的任意复杂分布的样本。

修改上述图像扩散模型并在任意多模态一维分布上对其进行重新训练得到的示例图

扩散模型如何生成机器人动作？

扩散策略于 2023 年推出。该策略将扩散模型（一种生成机器学习模型）应用于基于人类演示数据集生成机器人动作序列。动作的生成以机器人传感器的观察为条件，允许机器人在规划动作时考虑其状态和周围世界的状态。

扩散策略则可以将扩散模型应用至基于人类演示数据集生成机器人动作序列，动作的生成以机器人传感器的观察为条件，允许机器人在规划动作时考虑其状态和周围世界的状态。

在研究过程中，研究团队使用了2020年推出的去噪扩散概率模型（DDPM）和2023年推出的扩散策略。

扩散策略将扩散模型应用于基于人类演示数据集的动作序列的生成。就像图像生成模型可以根据文本提示来调节其生成一样，扩散策略根据机器人传感器（摄像机、位置/速度/力反馈等）的观察结果来调节动作序列的生成。

根据观察范围 ( To )的观察结果预测预测范围 ( Tp )上的动作序列后，扩散策略将执行后退范围控制。这意味着在模型根据更新的观察结果执行新预测之前，仅执行操作的子集操作范围 ( Ta ) 。然后重复整个过程。

使用扩散模型来规划机器人动作的优点在于扩散模型可以从复杂的任意分布中进行采样。机器人动作序列分布通常是复杂的和多模式的——机器人通常可以通过多种方式完成某项任务，而扩散策略可以轻松地处理这些复杂性。

▍建立空间：机器学习的架构测试

为了测试上述架构，研究团队创建了一个包含用于收集数据、培训和测试的基础设施的任务空间。

数据收集

这个空间包括几个不同颜色的磁带目标，以指示人类应该引导全向机器人到达的位置。

执行所有测试的任务空间

通过使用小有效载荷拖动全能机器人“leash”对每个目标收集50次人类演示。为了方便追踪标签、评估收集到的数据，April标签固定在地板、机器人和皮带上。

“leash”——一个由 80/20 制成的小型有效负载，上面附有 AprilTag。
它位于“机架”上，该装置用于在每次测试前将 Delta 机械臂定位到一致的位置。

图：显示训练数据集中机器人遵循的所有轨迹

在图像数据收集方面，研究团队共计使用了一个高架摄像机、一个水平摄像机和一个全向摄像机上三个摄像机。

收集期间，每个摄像头都会提供信息

为了记录所有数据，研究人员编写了一个软件包，该软件包包括一个根据配置的输入主题记录 ROS 包的节点、用于启动所有必需节点的启动文件以及用于指导用户完成数据收集过程的 bash 帮助程序脚本。

训练

为了训练扩散策略模型，研究人员分叉了扩散策略存储库并将其设置为与 omnid 任务一起使用。

由于扩散策略中使用的动作预测和后退水平控制依赖于数据的离散时间范围，因此 ROS 包数据必须以一定的速率进行抽取。

对于使用图像数据的模型，研究人员选择了 15 Hz（相机刷新率的一半）的速率。对于不使用图像数据的模型，研究人员选择了 50 Hz（联合状态刷新率的一半）的速率。使用脚本对数据进行大量抽取，该脚本对时间范围内收集的数据进行平均。

对于所有模型，研究人员根据相关扩散策略论文选择了比替代 Transformer 架构更容易调整且足以满足大多数任务的架构——基于卷积U-Net架构的神经网络架构。

训练图的验证损失通常很快达到最小值，然后稳步上升。验证损失像这样上升通常表明过度拟合。但同时，在像这样的生成模型的情况下过度拟合可能不会导致性能变差。

幸运的是，扩散策略存储库通常设置得很好，可以快速添加新任务 - 但这种灵活性的代价是代码库结构需要一些时间来理解。由于研究人员只创建新任务，因此只需添加新的 PyTorch 数据集加载器、环境运行器和Hydra任务配置即可使其工作。

最后，训练数据必须从 ROS bag 数据转换为zarr预期作为训练管道输入的格式。在此转换过程中发生了抽取。

▍结果

为了评估扩散政策模型在整个任务空间的长期、全面行动和每个目标的精细定位方面的表现，研究人员设计了一种挑战任务。在该挑战任务重，研究人员必须按照设定的顺序引导全向移动机器人到达任务空间中的每个目标，在每个目标处，人类需要将全向移动机器人的 AprilTag 精确定位在目标位置（小半径范围内），并将全向机器人保持在该位置一段时间。这一精确位置由头顶摄像机确认。根据数据计算末端执行器上的 X/Y 力分量的组合大小。该力值和完成挑战所需的时间被用作评估表现的指标。