人形机器人+大模型落地,要从机器人拿起一杯咖啡开始

2023-12-202383机器人技术及应用

近期,国内顶尖高校如清华、复旦等60余支队伍在上海进行了一场机器人的比赛,最后复旦、国防科技大学、中科院软件所等10支队伍脱颖而出,该赛事展现出的科研应用成果引起了国内外机器人圈内从业者们的极大关注。
 

 

 

比赛的主题与内容设计非常有意思,大致来说这是一个通用性赛题,需要这些团队在仿真咖啡厅场景中展开一场竞技,参赛者们不仅要“教”服务机器人学会如何充当咖啡厅服务员的角色,还要应对顾客、老板等角色的多轮对话“考验”,最终自主去执行完成一系列复杂任务。


 

人类充当服务员在咖啡店制作一杯咖啡,并将咖啡端到指定客户的桌上或许并非难事。但是如果换成机器人,其复杂度不言而喻。这不仅仅面对硬件和环境的考验,还对于软件和算法提出了更大的挑战。

 

         

今年CCF中国计算机学会的专家会议上,首次提出了“软件定义智能机器人”的概念,有专家提出,可以应用大语言模型、具身智能等新技术,促动智能机器人与软件技术结合,构建快速拓展“机器人+”场景的一条捷径。在这种思路下,机器人完成任务无需额外大量的数据和训练,应用开发可以更加简单。通过这场比赛,不少专家意识到这种方法或许的确可行。

         

▍显著的技术融合性

         

“首先是场景还原”,在机器人大讲堂的采访中,达闼机器人副总裁王斌直言比赛的设计难度超乎想象。

         

作为主办方的达闼机器人,已经是第四次举办此类大赛,但还是首次将如此多的热点技术进行整合并形成比赛命题,尝试让参赛者探索通过不编程的情况下,完成机器人对于复杂任务的处理,并降低人机交互的复杂度。   

         

为了实现高还原度,达闼首先在仿真环境中构建了一个机器人元宇宙的数字孪生场景,该虚拟场景是基于实际咖啡厅一致的各类数据产生,通过采集融合了几百个咖啡厅模型的各种常见物品,不仅仅还原了例如咖啡机、桌椅、饮品、蛋糕等环境中的各类物品、商品,同时还原了咖啡厅的实际布置灯光、清洁卫生用的工具等。一般团队很难有这个资金和精力。

 


 

值得注意的是,我们发现,该模拟环境中,甚至还考虑到了实际环境中物品的纹理和物理属性等问题,杯子重量不同、落地会打碎,物品接触有摩擦力,可以说基本做到了最终100%的还原。
 

 

通过提供庞大且还原度较高的数据集,基于这个数字孪生的场景,机器人开发平台可以仅通过算力,就轻易且低成本在虚拟仿真中像在真实场景一样进行各种各样的训练,这也使得国内人工智能和智能大模型科研团队,能很快尝试在人形机器人上实现各类技术的结合落地。

         

除了数字孪生环境,为了让机器人与环境进行交互的能力进一步提升,机器人硬件作为软件和算法的执行层,其设计和能力也至关重要。由于该机器人智能体需要与外界实现实时交互,这首先需要机器人对于环境实现感知,包括了听觉、视觉和触觉等方面。   


 

例如人到了咖啡厅,机器人不仅需要领位,由于环境的还原度非常高,机器人制作咖啡的任务中,还需要再次细分,例如如何找到咖啡机的按钮,确定咖啡机的按钮和用途等。同时,在该任务中,选择咖啡、制作咖啡、运送咖啡等也都是难点。这意味着如何通过大模型,实现对于实际环境任务的理解和分析并执行。例如顾客对机器人说想要喝XX咖啡,这种任务可能就有所区别,首先需要依靠交流中大模型的分析,准确定义需求,并实现环境中的运动和操作能力。

 


 

多任务本质上就升级到了更高层的认知层面,需要机器人语言和视觉为主的大模型,能在环境中实现感知、认知,并根据各种请求进行处理,这就还涉及人工智能的算法,从而才能让机器人精准实现各种各样的操作。


 

为了更好检验不同团队代码的特性,达闼将比赛的评判标准,总体归纳为了4个规定任务和2个开放任务,其中包括机器人主动探索与记忆、机器人交流对话、机器人视觉语言和操作、机器人指令响应等,以任务贯穿了机器人在整个落地进程中的多个流程和细节。


 

虽然最终的任务呈现看似非常简单,机器人只是响应了顾客需求,完成了制作咖啡,并通过机器人的手臂抓握咖啡,最终借助底盘运动运送走到相应的位置,这一套流程凸显出了多项前沿技术的融合性特征,尤其是大模型技术与具身智能的结合,受到专家评委的一致肯定。


 

 

▍大模型带来的变革

         

大模型对于实际场景的价值仍然处于发掘期,本次大赛中,大模型对于机器人技术的实际提升无疑是一个很大的亮点。

         

达闼机器人副总裁王斌介绍,往年在大模型没有出现之前,机器人开发者主要是通过对于应用程序的人工编程来实现任务执行,例如波士顿动力的机器人,虽然执行任务的过程中具有一定的灵活性,动作也具有美感,但由于是固定程序,任务过程难免循规蹈矩。   

         

在达闼的赛题任务中,着重体现了大模型技术应用思维链(CoT)能力的价值。该能力主要体现在机器人接到任务后,对于任务的分解,从而基于思维推理形成思路链,该方式相较原先的固定化编程和深度学习,机器人可以借助大语言模型,实现自然语言到机器语言的理解、转化,最终完成两者的对齐,从而自主化执行任务。

         

这也意味着,机器人和大模型深度结合后,在未来如果进一步实现了零样本学习 (zero-shot),依托这两项技术,机器人也可以借助大模型实现关节运动控制,从而无需对机器人身体部位、动作的轨迹进行编程,真正做到零代码编程。

 

另外,国外很多具身智能的研究成果只在一个机械臂上完成,真正的潜力没有完全展现。本次达闼该比赛则将成果放在了一个完整的人形机器人上,并在咖啡厅这样一个固定场景中实现了复杂的任务处理,展现出了具身智能技术更大的落地价值。


 

在这个比赛流程中,我们就看到了智能服务机器人在语音、视觉、导航、操作等方面的落地可能性。机器人进入陌生场景,首先会进行环境的主动探索与记忆,感知、判断不同物体和属性,实现记忆数据记录和调取。在此基础上,随后机器人开始在咖啡厅场景里与人进行交流对话,拆解任务信息。在执行层面,机器人需要借助视觉语言模型,拆分指令并实现具体动作,例如人说想喝水,机器人就需要拿取水杯、用水壶去倒水,并把水送给客人。

 


 

这个过程中,不仅需要将语言大模型样本和具身智能业务场景结合,实现对齐、微调,从而越来越准确,越来越具有通用性,还需要结合算法的应用,从而让机器人的操作更具柔顺性,这对于研发团队的实力无疑提出了非常综合性的要求。
 

 

▍新任务新挑战

         

在该研究中,非常有意思的是达闼机器人还设计了两个具有挑战性的赛题,在对话人员中加入了“店长”这一角色。机器人除了需要作为服务员响应相关顾客的消费需求,还需要与店长“对接”工作,实现人机协同。

         

在店长与机器人的交互中,又衍生出了更加复杂的任务,机器人需要完成“领导交办的其他任务”。

         

“例如店长说好像地面不干净了,机器人就要理解这话什么意思,判断意思是我可能还要去再清洁一下卫生。”王斌总介绍道,类似的机器人触发式任务,非常考验机器人环境职责定义和自主动作选择,需要最终机器人能够像是真正的咖啡厅服务人员,具备各种各样的附加能力,做到类似“阴天开灯”、“水洒擦桌子”等随机性事件的自主化观察和处理,为真正落地应用部署打下基础。

 

 

从最终的结果来看,实力居前的几个团队都一改往年本科生参赛的情况,开始由博士生带队,一等奖到三等奖前10个队伍主要由研究生、博士生组成,这也使得比赛展现出了非常多的研究成果看点。

         

例如复旦大学队伍不仅用大模型完整实现了全部任务,代码非常简洁并具备了一定的工程完整性,还通过对齐微调技术使得大模型开始减少了一些错误或者是幻觉,通过进一步优化具备了商用化矩阵开发价值。

         

         

国防科技大学队伍尝试实验了一种新理论,通过一种融合了统计学和连接学的人工智能技术,构建了一种行为树,从而凭借大模型进一步提升机器人的轨迹自主性,完成对于行为规则的理解和演化。

         

还有中科院软件所则提出了一种全新的记忆储存策略和算法,通过一种关联性记忆方法,提高了环境中存储资源的利用效率,保证了记忆的高效度。

         

鹏城实验室采用国产自研的鹏城·脑海大模型,通过AI大模型以稠密型架构实现2000亿参数,依托“鹏城云脑II”国产化AI算力平台进行全程预训练,实现机器人在咖啡厅场景中的各项任务。   

         

▍结语与未来

         

马斯克12月12日在推特发布了Optimus的最新视频,并透露Optimus第二代机器人(Gen 2)将在本月发布,初步展现了在步行速度、平衡感和身体控制能力的提升。然而在我国工信部的人形机器人产业规划中,则描绘了除了人形机器人肢体之外,另外两项核心技术,即“大脑”和“小脑”,在这两个领域,特斯拉却依然没有展现出太多的前沿性。

         

但随着大模型和人工智能的发展,这两个领域对于机器人的重要性正在提升。达闼机器人作为我国乃至全球,为数不多正在机器人“大脑”部分有着技术积累和深耕的企业,除了大力研发机器人本体技术,还在持续探索大模型与机器人结合的更大可能性。

 

 

本次比赛除了展现大模型对于机器人带来的提升,还展现了达闼通过云端大脑这个通用性连接设备,真正实现云计算平台对于机器人应用的实际助力价值。


 

按照达闼的预计,未来如果能够将比赛上展现的技术快速落地,有望在不同场景快速形成不同的软件功能机器人APP,并借助云端大脑赋予机器人进入更多场景的能力。机器人只需调用不同接口,即可具备不同的功能,从而实现服务的升级和提升,达到“机器人+”赋能更多场景的要求。   


 

由于大模型和云端大脑具备相当强的技术通用性,该技术架构还有望衍生为机器人的智能化、自主化能力,最终帮助中国机器人组成云网端的大操作系统,构建新的机器人生态,实现一个可控、安全的后台运营平台,助推中国企业在大国博弈中占据有利位置。