基于语言控制的机器人使得人类和机器人的交互变得更为轻松,从而让机器人从工业或者研究层面转换到生活层面。这类方法的重点是通过强大的语言理解模型教导机器人理解和执行自然语言指令。
近日,来自德国慕尼黑工业大学,博世AI研究中心,和中山大学的研究团队发布了一篇综述报告,总结了基于语言的机器人操作研究领域在当前的发展情况和未来的挑战。论文的通讯作者为慕尼黑工业大学的邴振山 (Zhenshan Bing) 博士。
• 论文地址:https://arxiv.org/abs/2312.10807
• 论文库:https://github.com/hk-zh/language-conditioned-robot-manipulation-models
该团队的调查探讨了这一领域的最新进展,根据学习范式(如强化学习和模仿学习)对方法进行分类,并探究了大语言模型(LLMs),视觉语言模型(VLMs)等基础模型(Foundation Models)和机器人操作(Robot Manipulation)结合的一系列最新方法。他们还从语意信息提取(Semantic Information Extraction),实验环境与基准(Benchmark),辅助任务(Auxiliary Tasks),任务表达(Task Representations)这四个方面比较了近几年各种主流的方法。最后,他们主要从泛化能力和安全问题这两部分探讨了未来的方向和挑战。
▍为什么自然语言+机器人如此重要?
在机器人和人工智能领域,基于语言的机器人操控正引领着一场深刻的变革。这一概念不仅是为了实现人类与机器人之间的无缝沟通与合作,更是在未来将机器人从工业和研究层面进入到我们的生活中来,成为人类无法替代的伙伴。这一基于语言学习的方法已在机械臂操控、游戏、导航、人机交互和自动驾驶等领域取得显著成功,而也会在未来带来更多创新。
图1说明了基于语言的机器人操作是一个交叉领域。它涵盖了机器人(Robotics),计算机视觉(Computer Vision),自然语言处理(Nature Language Processing)。它需要处理场景理解(Scene Understanding),语言注入(Language Grounding),策略学习(Policy Learning),动作执行(Action Execution)。它的应用也非常广泛,包括家庭自动化(Home Automation),医疗保健应用(Healthcare Automation),交互式机器人(Collaborative Robotics),服务机器人(Context-aware Service Robots)。
图1: 机器人操作 - 技术,任务,和应用
▍如何实现用语言控制机器人?
我们可以看到,当前的主流研究主要将机器人分为三个模块(感知模块,语言处理模块,控制模块)。它们分别有着感知周围环境,理解自然语言指令,还有学习技能和技巧的作用。有些方法会将语言和视觉结合组成视觉-语言模块来更好地感知和理解指令和周围环境的对应关系。
控制模块可以获取底层的控制策略(比如通过奖励rewards,演示demonstrations,或者直接通过硬编码的传统运动规划的算法)。如下图2所示,这一套方法有着两个循环,它们分别是左侧的交互循环(Interactive Loop)和右侧的控制循环(Control Loop),分别对应着人机交互和机器人-环境交互。
图2: 基于语言的机器人操作示意图
▍四类方法进行进一步探索!
这一部分深入研究了过去几年中基于语言的机器人操作方法。团队成员探讨了传统视角(RL和IL)和LLMs,VLMs等基础模型增强的最新方法。如下图所示,他们将当前的方法分为四类,分别是基于语言的强化学习,基于语言的模仿学习,LLM强化和VLM强化。
图3: 基于语言的机器人操作方法概览
A. 基于语言的强化学习
在这个部分,团队深入研究了基于语言的强化学习,将语言指令视为目标是其关键思想。首先,探讨了目标条件强化学习的基本概念,这为后续的基于语言强化学习打下了坚实基础。其次,详细剖析了如何将目标条件强化学习扩展为基于语言的强化学,以及在此过程中所采用的关键方法。最后,深入研究了基于语言的强化学习中的奖励函数设计,为策略的学习提供了有力支持。
B. 基于语言的模仿学习
尽管强化学习在语言条件机器人操作中取得了显著成就,但由于样本效率低和奖励设计的需求,研究者们逐渐将目光转向语言条件模仿学习。基于这一背景,团队成员详细讨论了两个主要方法,即行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。行为克隆通过收集专家演示轨迹并进行监督学习,使得机器人能够解决多任务问题。逆强化学习的目的是学习专家演示背后的奖励函数,这使得机器人在理论上可以学到优于专家演示的策略。
C. LLM强化
研究指出,语言指令可以加速机器人的学习速度和适应性,而大型语言模型的崛起为语言条件机器人带来了更大的泛化能力。该团队具体探讨了具有数十亿参数的大型语言模型(LLMs)如何成为改进机器人操作的关键因素。以ChatGPT为例,人们看到了这些模型通过广泛的常识理解和上下文推理能力,为机器人在现实环境中执行各种任务提供了零样本学习的可能性。研究者们正在积极利用LLMs解决大规模和开放环境中的任务,为机器人操作赋予更强大的能力。
D. VLM强化
视觉语言模型(VLMs)的兴起标志着机器感知和理解领域的革命性变化。团队研究者们介绍了CLIP等VLMs如何成功整合了图像和文本信息,极大地增强了机器人在操作中的感知和理解能力。这些模型的出现使机器人能够更好地理解环境,执行复杂的任务,例如导航、定位以及解决多步任务。他们详细描述了CLIP及其衍生模型在机器人操作中的应用。并且探讨了如何使用VLMs来辅助机器人操控任务。
E. 在LLM中如何将语言命令注入到动作
由于在互联网规模数据上的训练,基础模型展现了在语言条件机器人操作中具有重要潜力。与侧重于词语语义和语法分析的传统自然语言处理方法不同,大型语言模型(LLMs)可以绕过这些复杂性。它们强大的泛化能力使LLMs能够通过最小或零提示创建新的技能,克服了在构建技能库时的人力努力和扩展性的局限。同样,其他模态中的基础模型,如CLIP。它将图像和语言特征对齐,为识别颜色、类别和形状等语义概念提供了基本先验知识。团队成员们在此部分提及了众多将语言命令注入到动作的方法,比如将LLM作为高层规划者(High-level Planner),或是参与端到端学习(End-to-end Learning),或是用于计算奖励函数(Query Rewards)。
▍比较分析
团队成员在这一部分对基于语言的机器人操作方法进行了全面的比较分析,重点关注四个方面:语义信息提取, 实验环境与基准, 辅助任务和任务表达。下图4是这一部分的总体结构:
图4: 比较分析总揽
A. 语义信息提取:在这一部分,探讨了各种语义信息提取在机器人操作中的使用,包括视觉语义信息提取和语言命令中语意信息提取。
B. 实验环境与基准:深入研究了用于衡量基于语言的机器人操作方法有效性的环境和评估。模拟器因其在复杂场景中促进快速原型设计和测试而加速进展的作用而受到重视。这部分介绍了机器人操作中常用的模拟器,并介绍了评估和提高机器人系统功能的主要基准(Benchmarks)。表1是成员们对仿真引擎的比较,表2是对基准的比较。
C. 辅助任务:在机器人操作的动态环境中,成员们讨论了实现精确和自适应控制的挑战。他们介绍了辅助任务的概念,作为增强机器人系统功能的方法。这些任务,例如视觉注意力、重建和预测未来状态,与主要操作任务结合在一起,以指导机器人的学习过程和提升整体性能。这部分还概述了辅助任务的优点,包括它们在神经网络内关键信息流中的作用以及在训练期间指导梯度下降。
D. 任务表示:在这一部分,团队谈论了当前方法如何表示任务。他们引入了两个主要概念:特定任务学习和任务无关学习。特定任务学习表示机器人仅专注于从特定任务中学习,特别是那些语言指令的任务。而任务无关学习旨在训练能够在状态空间内达到任何可达到状态的机器人。
表3 是当前主流方法的总体概览。
表1: 仿真环境总览
表2: 基准总览
表3: 方法总览
▍未来方向与挑战
最后,该团队探讨了语言条件机器人操作的前景和挑战,并强调了未来研究的两个重要挑战:泛化能力和安全问题。
▍泛化能力:
团队成员指出,关键的挑战是确保基于语言的机器人操作系统在不同场景下具有强大的泛化能力。如果这类系统仅在特定领域或临时设置中表现良好,那么它们在日常工作中将无法发挥作用。因此,这些系统需要泛化其知识和技能以处理更广泛的场景。
通过这一方面,他们提出了三个分别对应语言、视觉和控制模块的泛化能力的问题:如何使机器人理解和执行未见过的语言指令?如何在不熟悉的环境中稳定训练过的机器人的表现?如何确保所学习或设计的技能能够在少量样本甚至零样本的新领域中得到传递?
他们还指出,目前提高泛化能力的趋势是利用更大的模型和更多的数据。大型语言模型、视觉-语言模型和基础模型包含了我们日常生活中大量的知识,这对机器人操控任务是很重要的。
多项研究表明,利用大型模型具有强大的泛化能力。如何将这些基础模型与控制模块相结合,成为新的研究热点。
团队成员们预测将会开发出一个可靠的、端到端训练的、用于处理日常生活中遇到的基于语言的操控任务的大型视觉-语言-控制模型(VLCM)。这样的模型将解决当前基础模型的局限性,即缺乏与现实世界环境互动的能力。
▍安全问题
• 语言的模糊性:人类语言的内在模糊性是主要的安全问题之一。自然语言指令通常留有解释的空间。例如,面对“从桌子上移走化学品”的指令,用户可能希望机器人将化学品容器小心地从桌子搬到指定的储存区域,以避免溢出或意外保证安全。然而,这个指令可能被解释为通过倾倒或不当处理容器来物理移除化学品,这可能导致化学品泄露和潜在的危害。
• 处理边缘情况:边缘情况代表不常见、意外或挑战性的场景,在基于语言的的机器人操控中构成重大挑战。这些情况在现实世界中很少发生,但可能极其重要,需要重点关注。处理这些情况是一个重大挑战。当试图用这些收集的边缘情况重新训练网络时,会引入一个关键问题:模型遗忘,即改变边缘情况的频率可能导致模型对其他情况的不可预见行为。这个挑战在管理边缘情况方面也是自动驾驶领域的首要问题。
更多细节可以参考原文
排版 | 鹅鹅