文献分享:一种应用于手持操作的新颖低成本紧凑型高分辨率触觉传感器

2023-12-200机器人零部件

本期为大家分享一篇来自IEEE ROBOTICS AND AUTOMA TION LETTERS. PREPRINT VERSION. ACCEPTED JANUARY , 2020的文章
 

 

 

▍背景介绍


 

机器人还不能达到与人类相同的操作灵巧程度。一个促成因素是难以精确估计接触力。力是理解和计划与环境相互作用的重要代表-抓住一个小螺丝,插入钥匙,操纵玻璃弹珠都是强调需要精确控制接触力的例子。触摸是人类和机器人的重要感官方式,因为它提供了一种自然、直接和几乎无噪音的方式来测量力-不像任何其他传感器方式。近年来,使用触摸传感已成为机器人领域的相关话题,大量文献研究了如何结合触摸来提高感知和操作能力。尽管存在许多不同类型的触觉传感器,在机器人操作中广泛采用触摸传感的主要瓶颈是缺乏同时满足所有要求的传感器:1)高分辨率,2)高灵敏度,3)可靠,4)易于使用,5)紧凑,6)廉价。


 

为了更好地满足这些需求,本文提出了一种新型触觉传感器的设计。新传感器“DIGIT”与过去的基于视觉的触觉传感器相比,引入了几个关键的改进:更小的外形尺寸,可以在多指手上进行手动操作;简化的制造过程,降低了成本和组装时间,并有可能实现大规模制造;提高了机械可靠性,大大延长了其使用寿命。此外,DIGIT还保留了以往基于视觉的传感器测量内容丰富、灵敏度高的特点。此外,DIGIT的设计是模块化的,因此单个组件可以很容易地更换,并附带一个软件接口,方便“即插即用”的使用。

 

▍GELSTEREO:低成本、紧凑、高分辨率的触觉传感器


 

虽然以前基于视觉的触觉传感器提供了无与伦比的高空间分辨率原始触觉感应,但与其他触觉传感器相比,它们有三个主要限制:他们有相对笨重的外形因素;与其他传感器相比,在接触表面使用软材料使它们容易迅速磨损;它们需要复杂的(主要是手动的)制造过程,导致传感器之间的高度可变性,因此更换损坏的传感器并不容易-系统可能必须重新校准或重新培训以适应新传感器的特性。


 

DIGIT继承了基于视觉的触觉传感器的优点,同时也解决了这三个缺点。首先,DIGIT被设计得足够紧凑,可以安装在末端执行器阵列或多指机器人手臂上,如图1所示。其次,DIGIT的凝胶设计更坚固,同时比以前的设计更容易互换,从而使传感器整体更坚固。


 

最后,DIGIT的设计结合了新的自动化制造技术,强调无工具组装和商业现成组件,以非常低的成本实现快速大规模、可重复的制造。


 


 

DIGIT机械设计的爆炸视图如图2所示。一个完整的DIGIT尺寸为20mm宽× 27mm高× 18mm深,重约20g。DIGIT有一个塑料多体三件式外壳,易于3D打印原型,或用于大规模生产的注塑模具。相机和凝胶使用“压合”连接安装在这个身体上,这样任何一个组件都可以在破损或磨损时轻松更换。此外,塑料外壳可以互换,以允许不同的焦距,弹性体可以很容易地通过一个螺钉更换。例如,可以将特定任务的弹性体交换到相同的DIGIT单元中,硬度和不透明度根据该任务所需的灵敏度和预期的力进行调整。图4所示的例子有用于精确测量表面和纹理的纯反射弹性体,用于计算光流的带有标记的反射弹性体,以及用于在抓取过程中控制手指位置的带有标记的透明弹性体。DIGIT的多体设计也大大简化了装配过程,使其易于重复扩展。


 

 


 

该传感器没有依赖现有的相机解决方案,而是决定定制设计控制相机特性、照明和视频捕捉的电子设备。通过这样做,最终的电子产品可以安装在7平方厘米的面积内,仅比人类的指尖稍大。对于相机,使用Omnivision OVM7692, 60 fps彩色CMOS托管微透镜阵列,焦距1.15 mm,景深30 cm。摄像机通过定制的PCB连接到SuperSpeed USB 3.0集线器,方便多个数字连接到主机上的单个USB端口。该PCB还允许手动控制三个RGB led的照明强度,这可以在弹性体表面上提供最大4流明的照明。


 

▍用高分辨率触觉传感器学习手操作


 

细粒度的手持操作是机器人领域的长期任务,由于缺乏适当的触觉传感器而成为瓶颈。先前的研究表明,高分辨率触觉传感可以实现精细的触觉控制任务,但这些传感器过于笨重,无法用标准尺寸的机器人手进行手持操作。如上所述,DIGIT更紧凑,适合舒适地安装在Allegro机械手上。这意味着,有史以来第一次,在机器人手的所有手指上配备高分辨率的基于摄像头的触觉感应系统是可能的。这反过来又为触觉感知的精细手持操作开辟了新的可能性。作为演示,使用数字在快板手教它保持和操纵弹珠在一个精确的握持之间的拇指和中指配备数字和移动弹珠到期望的目标位置。这种触觉控制任务明显比之前已经证明的其他任务更复杂。


 

Tian等采用视觉预测模型对光学触觉传感器在三维末端执行器位置变化下的观测动态进行建模,以实现触觉控制。该文有一个更复杂的设置,包括两个手指上的两个触觉传感器,控制命令是8维角位移,对应于组成这些手指的8个伺服器。为了处理这种增加的复杂性,使用了一种不同的预测模型选择,基于“结构性VRNN”架构,该架构也与中提出的方法密切相关。


 

首先训练一个具有结构瓶颈的自编码器,该自编码器学习检测表示输入数据变化因素的对象的关键点,以便对这些关键点的动态建模足以执行视频预测。自动编码器由一个关键点编码器和一个解码器组成,我们使用了一个小版本的ResNet-18作为它们的主干网络。编码器处理输入图像并输出K个特征映射。从K个特征映射中的每一个,我们得到一个“关键点”预测K = [x, y, i],它由具有最大激活的2D位置x, y和一个表示激活平均幅度的“强度”标量i组成。在解码时,对于K个关键点预测中的每一个,我们在空特征映射上绘制一个高斯斑点。然后,解码器将这K个特征映射作为输入,生成目标图像。


 

之所以选择这种基于关键点的表示,是因为在大理石操作设置中,大理石的位置和大理石被压入凝胶的深度捕捉了状态的最相关方面。自编码器网络是用L2图像重建误差和辅助损失(稀疏、非冗余的关键点)进行自监督训练的。在实验中,最初设置关键点的数量K = 8。观察到,除了一个关键点外,所有的关键点在所有图像中都是不活动的,并且活动的关键点位置可靠地匹配了DIGIT图像上大理石的可见位置,而其强度i随着图像中大理石的深度而变化-大理石被压入凝胶的程度越高,强度越大。使用活动关键点作为原始数字图像的压缩表示,并训练一个这样的关键点自动编码器为两个手指共享。在关键点编码结束时,状态用s = [kl, kr, j]表示,其中kl和kr分别表示从左到右DIGIT的关键点。与64×64原始输入图像相比,这种紧凑的状态表示只有14维。学习模型的概述如图6所示。

 

 

在学习了动力学模型之后,并使用模型预测控制(MPC)和交叉熵方法(CEM)作为底层优化算法来执行手持大理石操作。


 

然而,在两幅数字图像和8个自由度(DOF)的情况下,与它们的一个触觉观察和3个自由度相比,规划搜索空间要复杂得多。在设置中,带有CEM的MPC需要在规划和执行一个轨迹的过程中预测数十万个可能的未来步骤,当每一步必须生成两个DIGIT图像时,这是非常昂贵的。为了克服这些困难,直接在14-D状态空间中进行规划,而不是在观测(图像)空间中进行规划。


 

具体来说,首先使用关键点编码器将当前图像观测映射到关键点空间。然后,对于每个长度为T的动作序列,我们只需要递归地将学习到的动力学模型应用于14-D状态的自回归T次,就可以生成预测。由于编码器网络是整个模型中计算成本最高的部分,对于MPC的每一步只调用一次(在开始时从图像映射到关键点空间)。


 

给定来自其中一个手指的目标DIGIT图像,指定弹珠相对于该手指的目标位置,首先将其映射为kgl或kgr(用于左手指或右手指)的关键点空间。在实验中,直接提供目标弹珠的位置作为关键点位置。


 

在规划过程中,每个动作序列的代价是当前位置与目标位置在(x, y, i)坐标系下的欧氏距离之和。这鼓励计划者将弹珠移动到所需的(x, y)位置,同时也避免掉下弹珠或用力过猛。


 

▍结论


 

触觉感知是机器人实现人水平操作技能的重要组成部分。在本文中提出了一种新的紧凑型触觉传感器。此外,DIGIT在许多其他有价值的指标上提供了显著的改进:可靠性、组件可用性、装配的便利性和制造成本。通过解决一个具有挑战性的精细运动控制任务来展示这种新传感器的能力:手握大理石操纵。建立在深度的进步之上模型预测控制,学习操纵玻璃弹珠从原始的触觉输入到期望的目标位置。我们相信DIGIT是多功能触觉传感器设计的一个进步,可以大规模生产并广泛应用于机器人社区,以达到人类水平的操作技能。


 

来源 | 柑橘全程机械化平台