从特斯拉GEN3到宇树H2,机器人之眼进化路逐渐情绪

Jack2025-10-241984人形机器人

近期,宇树发布最新H2人形机器人,除了双脚离地的高动态旋转跳舞让人大呼震撼,2 自由度铰接式琴颈+内嵌头部的机器人之眼同样吸引了不少目光,有不少人猜测这或许是一种更先进、更融合的机器人“眼睛”方案。

基于更灵活能够左右偏航和俯仰的头部,以及全新的机器人之眼方案,H2可更快实现360度环境感知,使机器人无需转动整个躯干即可跟踪物体及其环境,运动控制算法还能实时调整步态以适应凹凸路面,动态感知能力再上一个新台阶。

▍激光雷达方案人成“眼睛”标配

眼睛是机器人感知的核心,因为随着人形机器人逐步进入家庭、工厂乃至户外等非结构化环境,其对环境的感知需求已从“看见”升级为“快速理解并交互”。在机器人之眼的路径上,一度分为视觉和激光雷达两个主要分支。

此前,在特斯拉等企业的引领下,曾有部分人形机器人企业尝试纯视觉方案,通过立体视觉或深度学习估算深度,但现实瓶颈在于,但视觉传感器无法直接获得精确的距离信息,精度、计算量和实时性都面临挑战,尤其在光照变化、纹理缺失的环境中容易失效。

更麻烦的是由于机器人的决策和路径规划依赖于内部构建的环境模型,单一视觉传感器很难保证数据同步性,深度视觉信息和纹理信息部分错位,模型本身存在扭曲,这使得一方面机器人很难理解高复杂任务,例如当人形机器人在运动、作业时很难快速反应,拳击时对敌反应迟钝,或者对突然跑出来的小孩或者运动的物体也没办法快速反应。另一方面机器人的“眼”(传感器)和“手”(机械臂)无法实现快速协同,所以大部分机器人的可操作性仍停留在初级阶段。

激光雷达的加入正好弥补了视觉传感器的不足,从技术原理来说,激光雷达通过发射和接收激光束,能直接获得环境中数百万个点的精确三维坐标形成一个“点云”,因为能够高频测量自身的角速度和加速度,反应极其迅速,它提供了直接、精确、主动的3D空间测量,不依赖环境光,能直接、可靠地感知环境的几何结构,能在让这些不同来源的数据准确地“对齐”到同一个时间和空间坐标系下,在人形机器人快速运动中产生明显效果,例如,摄像头识别出一个“椅子”,而激光雷达的点云可以立刻告诉你这把椅子的精确轮廓和位置,这就实现了空间上的同步。

▍机器人之眼正持续进化

在机器人之眼迈向更高阶的自主智能过程中,dToF激光雷达方案成为机器人感知核心的必要性,源于其对 “全场景高精度感知” 需求的刚性匹配,因为它从原理层面解决了其他 3D 感知技术无法兼顾的测距精度、抗干扰性与算力效率三大核心痛点,是机器人实现复杂操作的基础。

dToF激光雷达之所以成为必要路径,根本原因在于其技术原理能有效克服真实世界复杂环境的挑战。与易受环境光干扰的视觉方案或测量精度存在天花板的间接测距技术不同,dToF通过直接测量激光飞行时间,在强光、弱光等复杂光照下依然能提供稳定、可靠的深度信息。这种与生俱来的鲁棒性和抗干扰能力,是机器人在动态、非结构化的“人类环境”中实现安全、可靠感知的基石。

更重要的是,dToF方案在提供高精度深度信息的同时,对系统算力的要求远低于其他方案。这为资源有限的移动机器人释放了宝贵的计算资源,使其能将更多算力投入到高级认知与决策中。因此,随着机器人从实验室走向全场景应用,dToF激光雷达凭借其全场景适应性、高可靠性及低算力开销的综合优势,从一种可选技术演进为实现高阶自主智能不可或缺的感知支柱。

但dToF激光雷达与各类传感器融合麻烦是业内共识,核心在于其数据与其他传感器,如RGB相机、IMU)在采集时序和物理坐标上存在固有错位。传统方式是让各传感器独立工作后再通过软件进行“软同步”,但这无法解决根本问题。尤其当机器人或目标快速运动时,这种微小的时间差就会导致深度点云与二维图像像素、自身姿态信息之间出现空间位置偏差,生成一个“错乱拼凑”的世界模型,导致机器人决策依据失真。

正因上述“软同步”方式存在天花板,一体化集成成为了必然选择。它的核心思想不再是事后补救,而是在硬件层面进行“硬同步”。通过一颗主控芯片统一触发,强制让dToF激光雷达、RGB相机和IMU在同一微秒时刻同步采集数据。这从根源上确保了所有感知数据在时间和空间上的高度一致,形成了一个时空对齐、内在统一的感知基底。这不仅极大减轻了后端算法的融合计算负担,更从根本上为机器人提供了“真实、一致、瞬时”的感知能力,使其能应对高速动态的交互场景。

例如速腾聚创近期正式发布“机器人操作之眼”AC2就是类似方案,这是业内首款dToF+RGB双目+IMU一体化超级传感器系统,其就是基于速腾的芯片级硬件同步控制技术,从而能保证AC2在大部分场景下深度与图像信息的高度时空对齐,同步精度达1ms,就可以极大地消除了这种时空错位,让机器人感知到的每一个像素都有精确的深度信息,决策依据更可靠,从根源上确保融合感知的质量和应用效果。

在官方介绍中,搭载AC2的机器人可实现全场景全工况下的高精度大范围感知。不仅能轻松执行对牙刷、衣架等细小物体,以及玻璃、金属等高反射率物体的感知和操作,也能在机器人进行大幅度动作时,保证融合感知图像不畸变,助力机器人解锁更多操作应用。而且AC2基于dToF深度感知,拥有优秀的抗环境光干扰能力,能在弱光、强光、明暗交替等复杂光照场景下表现稳定,同时还能满足IP65防尘防水等级,确保机器人在户外稳定顺畅运行。

如果这类产品能跑通,不仅有望彻底消除了机器人因自身或目标物体运动而产生的点云畸变,为实现可靠的动态交互奠定了基础,使机器人能完成精细的手眼协调操作,还展现了一种更紧凑、坚固且成本优化潜力更大的硬件形态,为在机器人上的大规模普及应用扫清了障碍。

▍迈向“真实、一致、瞬时”的感知未来

从趋势来看,全场景全工况下的高精度高一致性感知成为扩展机器人操作范围的必备前提,这要求人形机器人不仅能够及时“看到”世界,更要能“理解”并“物理交互”世界,需要机器人之眼能够拥有毫秒级的反应速度、毫米级的空间精度、对复杂场景的鲁棒理解,并且能在无论在明亮、黑暗、反光还是无纹理的复杂环境,避免碰撞、抓住任务机会,完成精细操作,这就使得激光雷达方案成为未来人形机器人标配。

同时,人形机器人如果需要在一个动态、非结构化的环境中行动,必然对多模态感知和空间智能提出极致要求,这需要其具备一个不断更新的、精确且同步的内部“世界模型”,这个模型必须包含几何结构、动态物体特征、自身位置识别等,从而才能分清哪里是地面?前方有没有台阶?桌子有多高?周围有没有移动的人、宠物或汽车?预判它们的速度和方向,以及自身在这个环境中当下和未来的精确位置、姿态。为了构建这个模型,机器人就需要融合来自视觉和激光雷达传感器的数据,保证数据的同步性。

此前特斯拉展示了一个抛接球的演示,如果不是遥操作,其实就展示了可怕的手眼协调能力,因为机器人要接住一个抛来的球,或者从人手中接过一个物品,这需要机器人在运动过程中实时、精准地计算目标的3D位置、速度和轨迹,高度时空对齐的感知数据能让机器人大脑(AI模型)快速且准确地完成这些计算,从而实现流畅的动态交互。有专家就提出预测,为了更好建立世界模型,前提条件就是让机器人看到一个“真实、一致、瞬时”的世界,而不是一个“错乱、延迟、拼凑”的世界,这就需要视觉与激光雷达方案的深度融合。

本次宇树H2本次发布展示,其实也展现出类似趋势,在人形机器人追求更高作业精度、更强环境感知能力的当下,头部乃至配套的机器人之眼,如果能实现 “精度 - 抗干扰 - 效率” 的平衡,有望成为下一步升级的关键,因为这意味人形机器人能够及时“看清并且反应”。

而作为宇树供应商,速腾聚创本次机器人之眼AC2的演进,或许不仅是技术层面的突破,更是机器人从执行工具迈向自主智能体的关键一步。随着人形机器人逐渐走出实验室、走入家庭、工厂乃至复杂户外环境,其对环境的感知能力正从看得见向看得懂、反应快、交互准全面升级。AC2融合感知方案的出现,正是对这一趋势的积极响应,它不仅在硬件层面实现了多传感器的高精度同步,更在数据源头构建了时空一致的感知基础,从而为机器人的决策、规划与交互提供了前所未有的可靠支撑。

未来,随着具身智能与机器人技术的深度融合,高度融合的机器人之眼将不再仅仅是传感器,而是机器人理解世界、与人共存的“认知窗口”。它承载的不仅是三维空间的深度信息,更是机器人与人类、与环境动态交互的智能桥梁。从精准抓取到动态避障,从室内服务到户外作业,机器人之眼的每一次进化,都在推动机器人从“功能机”向“智能体”跃迁,也为构建真正可信、可协作、可共融的人机社会奠定了感知基石。

我们正站在机器人感知革命的起点上,而机器人之眼,正是这场变革中最明亮的那一束光。

(更多人形机器人赛道深度文章,请关注微信公众号“人形机器人发布”)