三个月一个大变革,一个月一次小迭代,人形机器人行业风起云涌,路线差异已出现

2024-08-111412人形机器人

近期,人形机器人行业热闹非凡,英伟达发布在人形机器人的技术和训练上取得的重大突破,提出一种系统化的机器人数据集扩展方法,解决人形机器人数据集不足的痛点,同时国际人形机器人领军企业在软硬件上不断迭代,Figure官宣最新款人形机器人Figure-02,特斯拉T-Bot工程总监声称将在几周内更新Optimus最新进展。有机构预计,2024~2030年人形机器人出货量年复合增长率约为83%,人形机器人行业发展进一步提速中。
 

         

不仅仅是国外人形机器人商业化加速,在激烈竞争的市场环境下,我国人形机器人产业也呈现出蓬勃发展的态势。不久前,国内优必选科技的工业人形机器人还进入安徽合肥蔚来工厂总装车间实训,在汽车生产工厂与人类协作完成质量检测。近日,优必选又宣布和吉利、天奇股份达成战略合作,Walker S Lite连续21天在极氪5G智慧工厂“实训”表现良好,在CTU入库上料工位协同员工执行搬运任务,不仅是国内首次全流程执行和对外展示料箱搬运任务的人形机器人,其作业完成度和执行难度也属于业内前列。吉利控股集团旗下极氪5G智慧工厂迎来了第一位人形机器人“员工”。

           

         

无独有偶,近日,四川省中国兵器装备集团自动化所和长虹公司联合研制的首款人形机器人在绵阳上岗,投入试生产。此款人形机器人身高1.7米,运动速度可达每小时6公里,最大负载30公斤,全身共有38个自由度,在进行扫码贴签时,可以通过像人一样的7个自由度臂和6个自由度手以及全身协调力控技术完成操作,灵巧准确且安全稳定。

         

人形机器人进入工业场景,已经成为国内外确定性极高的应用趋势。

         

发展多样化路径开启

         

人形机器人下游应用场景丰富,包括生产制造、应急救援、家庭陪护、教育、医疗等,但从目前国内外厂商落地实践的表现来看,还是汽车工业场景有望成为人形机器人产品最先落地的场景。这不仅仅是由于国内外未来5—10年,劳动力缺口将扩大导致用工成本上升,工厂机器替人需求逐渐增加,还考虑到人形机器人主要应用于人类的生活和工作环境,直膝行走+手部辅助有助于机器人更好地适应楼梯、坡道等地形,能够发挥人形机器人广泛的功能性。

           

当然,更深层次的原因也有,完全2C需要应用的场景太多样,算法和AI技术都难以满足要求。全通用场景的人形机器人实现难度较大,这使得更标准化、更简单,场景结构化程度高的2B场景,尤其是汽车工业场景,更加有利于标准数据收集及算法和产品迭代。

         

任务的处理灵活性也是目前人形机器人更受工厂认可的原因。在原先,传统固定机器人无法适应复杂环境或环境变化,机器人往往会出现因严格遵循固定的程序,不能灵活应对突发情况的事件,各类复杂环境对机器人正常工作的挑战性较大。但人形机器人能够移动,加入视觉、传感器和AI技术后,即使工厂环境变化,用户也可以通过简单操作实现场景适配,带来了较好的场景灵活性。

         

在特斯拉的工厂内,我们看到人们希望机器人能够完成愈发丰富的任务,这使得人形机器人其实并非单纯执行某些特定的程序,例如“帮植物浇水”、“帮忙拿东西”这种非结构化任务,得益于AI大脑的突破,正在随着人形机器人算法的升级与高水平的智能化而有了可能。


 


 

归根结底,原因在于一方面,由于人形机器人是软硬件能力高集成的实体,可以借助多传感器融合,或者可以直接与工厂目前高度智能化的智能制造体系打通。这帮助人形机器人大脑还能够更好筛选并分辨信息,从而输出正确的决策信号。智能化程度的提升,已经使得人形机器人能够在工厂内快速根据各种异构数据,分辨眼前各种各样的物体,高效决策与处理,错误决策的情况正在快速下滑,工业场景的高质量数据训练,有望快速成为人形机器人的商业化护城河。   

         

另一方面,目前的人形机器人已经具备良好的人机交互能力,人形机器人能作为与人类进行交互的工具更顺畅进入工厂。尤其加入语音大模型后,人形机器人任务分解、处理能力快速提升。虽然当前我们看到人形机器人与人之间的交互效率不高,且互动过于单一,难以应对过于复杂的交互,但未来价值将从人形机器人与人类的交互逐渐开始。

         

很大程度上,交互还来源于灵巧手的加入。从今年5月特斯拉发布人形机器人Optimus最新进展视频来看,由于增加了灵巧手,算法和AI技术也愈发成熟,特斯拉机器人已具备分拣电池、行走、执行工厂任务的能力,而且能够与人进行配合,在产线上实现较好的任务衔接,这对于柔性化需求较高的产线来说意义非凡。


 

         

至此,全球其实也已经明显诞生了轮足人形机器人与双足人形机器人的路线差别。例如UniX AI发布将于2024年内投产的轮式通用人形机器人Wanda,就强调强化人形机器人手部的操作能力,使非常多任务有了可能性。视频中Wanda也确实不仅可以抓起柔嫩的豆腐,协助人类做豆腐汤,还可以识别需要清洗的衣物,及时跟人互动。在家庭场景方面,Wanda可以刷盘子、清扫桌面、联动扫地机等。此外,Wanda还可承担多种操作任务、提供健康诊断与建议、进行家庭教育、医学监测等,为家人提供贴心陪伴。   

         

轮式人形机器人其实规避了人形机器人最难的任务和步态规划问题,而是认为运动控制能力是人形机器人的核心能力。在机器人执行具体任务时候,需要解决准确性和实时性问题,而且设计人形机器人的意义在于机器人可以像人一样,在各种非结构化的场景下应用,实现多种功能的整合,这种情况下不考虑人形机器人行动的速度、步幅、稳定性和路径规划,只需要让其“不倒”的同时兼顾操作特性,其实就能解决大部分场景的DEMO成功与否的问题。

         

         

在这条路线下,国内已经有星动纪元、银河通用、星海图、千寻智能等企业正在尝试。国外也有全球知名企业Sanctuary AI宣布即将部署的首批1000台人形机器人很可能采用轮式设计,而非传统的双足结构。

           

当然,国外例如digit机器人其实还展示出一种全新可能。也就是人形机器人在灵巧手的深入应用。这种开拓借助于手臂末端执行器接口的高度开放,能与各种市场上成熟的工具进行适配即插即用。也就是只要人形机器人的下肢鲁棒性以及承载能力足够,双臂的负载足够,就能借助末端快换各种工具完成各类任务。目前优必选科技在工厂内也展示出手臂末端部分快换的可能性。

         

模型企业受到热捧

         

当前AI算法在特定任务上表现出色,但在泛化到新任务或环境时表现不佳,这限制了机器人在多样化任务中的应用。想要让人形机器人本体和人工智能形成飞轮效应,最终仍然需要往与人交互的层面上发展,确保人形机器人在与人类做物理交互的安全不能仅依靠纯位置控制,最终能决定机器人人机交互能力的主要是AI算法及软件平台能力。

         

而人形机器人相对自动驾驶和ChatGPT等AI算法,不仅在物体识别能力上有更高要求,还需要辨别物体重量、质感、抓取方式等更多要素,算法难度在于可获取用于练习的数据较少。虽然有部分深度学习算法宣称能够从互联网数据中生成物理世界视频的方式进行学习,但毫无疑问当前的AI大脑在实际任务逻辑思维和行为智慧决策层面还需要一段成长空间。

         

这也使得杰夫·贝佐斯、日本软银集团、红杉资本和卡内基梅隆大学等都投资了Skild AI这家新兴创企,原因在于他们尝试做了一种可以改装到机器人硬件上的异构控制系统,能在伺服控制层基础上创建一个通用、鲁棒且具备涌现行为的机器人模型,并花钱标注和训练大量数据让其具备了一定泛化能力。  

 


 

目前机器人大模型类似具身智能可以细分为三个模块:具身感知(Perception)、具身想象(Imagination)和具身执行(Execution),分别对应了各类传感器、模型能力和执行能力。这套系统架构前端是大语言模型,中间是虚拟仿真和动作执行模型,最终表现是任务执行。这种人形机器人系统其实与智能驾驶系统具备较高的相似性,都是将AI能力赋能于复杂硬件设备,串联起众多传感器、运算芯片与执行器,实现智能体的自主行动。两者软件算法也有较高相似性,都具备了完整的感知、决策规划、控制的循环链路。这也是特斯拉能够快速切入人形机器人领域的核心原因。

         

有分析指出,特斯拉机器人Optimus采用Dojo超算平台作为底层AI算力支撑。Dojo芯片架构平台由DojoD1芯片组成,拥有一个大规模计算平面,极高宽带和低延迟,训练模块最大程度上实现了带宽的保留。D1芯片本身采用7纳米制造工艺,算力为22.6Flops@FP32,超过英伟达A100的19.5Flops@FP32,配合特斯拉自研的高带宽、低延迟的连接器。

           

英伟达也指出,人形机器人的核心瓶颈在于训练,当前的训练方式存在着准确率、执行效率和数据获取三个难关。英伟达最新的成果,就是通过MR技术操控机器人获取数据,RoboCasa生成虚拟环境,MimicGen则在虚拟环境中基于人类动作模拟出机器人运动轨迹,最后过滤掉失败的样本保留高质量的数据集,这一套组合拳下来,英伟达不仅能提供一整套服务、模型及软件平台,以开发、训练并构建下一代人形机器人,而且机器人训练数据扩大到1000倍以上,就能满足智能体多场景数据泛化的诞生条件。

         


 

对于国内通用人形机器人产业而言,除了GPU与算力的局限,还有一部分在于模型框架的问题,此前达闼成功研发出国内首个机器人具身智能大模型RobotGPT多模态具身大模型,它是达闼专为实现机器人在不同复杂场景中的多模态行为而打造的具有高级交互生成能力的具身智能大模型,不仅整合了强大的语言生成和处理功能,还融入了情感分析、视觉语言导航、视觉语言操作、表情动作生成、自主行为决策等多模态输入输出功能。

         

该技术背后还涵盖着几个关键模型:负责处理自然语言输入输出,支持开放式问答和内容创作的大语言模型;使机器人可以识别并理解其所处环境中对象及场景的开放域检测视觉大模型;赋予机器人空间移动和精确操控物体的能力的机器人导航与抓取大模型;优化特定任务执行过程中遇到挑战时所需采取行动的基于深度强化学习专家小模型。这种集成模型虽然任务识别、分解和规划部分采用了国外成熟的语言大模型,但融合后不仅让机器人在完成复杂任务上表现出色,更在感知、认知、决策和执行多功能复杂任务的过程中展现出高级工作能力。   


 


 

除了机器人企业自主研发大模型,更多人形机器人采取的是合作研发的模式。例如Figure AI就是与OpenAI合作,为人形机器人开发下一代人工智能模型,最终目标是让Figure01能够自主执行“日常任务”。而要实现这一目标,需要开发更强大的人工智能系统。此外,Figure AI还尝试使用微软的Azure云服务进行人工智能基础设施、培训和存储等方面的部署。

         

国内类似智元机器人、乐聚机器人,也在尝试与华为重构基于鸿蒙体系的全新人形机器人系统,这种芯片级别的结构革新,有望脱离目前既有的机器人架构,带来更多底层能力方面的革新。当然,目前Figure正在宝马位于美国南卡罗莱纳州的斯巴坦堡工厂做试点“实习”,主要代替人类工作者从事一些较危险的任务,乐聚机器人、智元机器人则也正在工厂进行打工。

         

结语与未来    

         

人形机器人是跨时代的产品,有望开启下一个十年产业大周期。在政策、资本以及技术多维度赋能下,人形机器人市场的潜力正被加速释放,未来的商业应用场景有望渗透进入千行百业,国内人形机器人企业茁壮成长,未来或出现苹果、特斯拉这般带动整条产业链一同成长的龙头企业,中国也将迎来国产人形机器人的商业奇点。

         

从全球范围看,人形机器人已有商业应用场景预期落地。当前人形机器人企业一方面正尝试打造具身智能人形机器人,推动专用大模型与人形机器人深度融合,提升人形机器人环境感知、行为控制、人机交互,为人形机器人注入语言理解、视觉泛化、常识推理等关键能力,加速大模型训练迭代和产品应用,提高人形机器人的“人-机-环境”共融交互能力,支撑人形机器人全场景落地应用。


 


 

另一方面部分企业正聚焦3C、汽车等制造业重点领域,提升人形机器人工具操作与任务执行能力,打造人形机器人示范产线和工厂,在典型制造场景实现深度应用;目前汽车制造仍有大量工序需要依赖人工,这已经为人形机器人带来切入市场。这条路线未来有望演变成为更进一步加快人形机器人在矿山、特种环境应用,强化复杂环境下本体控制、快速移动、精确感知等能力,实现高效、安全的工作,并提升人形机器人本体安全防护能力、复杂任务智慧生成与高精度操作能力,走有巨大潜力专用人形机器人路线。   

         

在人形机器人行业三个月一个大变革,一个月一次小迭代,全球企业百家争鸣百花齐放的今天,人形机器人哪条路线、哪些家企业能够率先跑出,依然非常值得期待。