在无人驾驶领域,车道跟踪、车辆流量监控、变道辅助及车道保持等技术已得到广泛应用。但无人驾驶系统仍面临一个根本性挑战:构建人与车之间的双向认知协同。无人车不仅需要准确理解人类行为,其决策也需能被人类及时理解,二者缺一都会损害可信性。
为此,无人车必须具备深度的情境理解、自然的交互、持续的学习能力,才能建立真正的可信赖性。然而,驾驶场景是高度动态、碎片化且无穷尽的,因此,无人车如何在这些日益复杂的真实场景中实现持续进化,构成了其迈向真正智能化的最后一道难关。
近日,清华大学李德毅和北京工业大学马楠作为通讯作者在中国工程院院刊《Engineering》期刊上发表“无人驾驶具身交互智能”的研究论文,提出了无人驾驶具身交互智能理论框架,通过跨媒体感知、机器学习、认知计算和生成式人工智能等技术,构建与物理世界统一的智能表达与学习方法。
![]()
该研究创新性地构建了端到端感知-认知-行为闭环反馈范式,使无人车不仅能交互、会学习、可信任,更能在日常驾驶中遇到的每一个碎片化场景中进行自主终生学习。通过自学习、自成长能力,以有限的驾驶经验逼近无限的智能,从而增强机器的智能化水平,真正实现人机融合,使无人车具备情境理解能力,为大众所接受。
▍从感知到交互认知:无人驾驶如何理解人、车与环境?
要应对复杂交通环境,无人驾驶系统需要超越传统的被动“感知”,迈向主动的“交互认知”。本研究提出的无人驾驶具身交互智能框架(Embodied Interactive Intelligence Towards Autonomous Driving, EIIAD),正是这一跨越的核心。
该框架的核心思想是:无人车如同一个置身于交通环境中的智能体,它利用跨模态感知系统识别物理世界的关键要素,并通过主动与环境交互来获取反馈。基于此,它持续构建并优化物理世界与自身认知世界的映射关系,最终形成“感知-认知-行为”的闭环范式,实现近似人类的决策与控制能力。
根据交互对象差异,无人驾驶具身交互智能包括车与人交互、车与车交互和车与环境交互三大类别。针对不同交互主体的行为特征差异,本研究提出了差异化的交互认知模型:
- 理解人:如何预判行人的意图?
针对车与人交互,研究提出基于多视时空特征的超图神经网络(Hypergraph Neural Network based on Multi-view Spatial-temporal Features, HGNN-MSTF)。该模型通过构建动态时空超图捕捉人体关节的高阶语义关联,融合多视角跨模态感知信息提取并学习基于场景上下文空间位置的行人动作特征,实现对行人意图的精准理解(图1b);
- 理解车:如何与其他车辆安全博弈?
针对车与车交互,研究设计了基于联合轨迹预测的世界模型深度强化学习网络(Deep Reinforcement Learning - Joint Trajectory Prediction World Model, DRL-JTPWM)。该模型的核心在于,它并非仅预测单一车辆的轨迹,而是通过估计无人车与周围社会车辆行驶轨迹的联合概率分布,推理多个潜在交互场景,利用预测的未来场景评估驾驶策略优劣,在狭路会车、超车并道、无保护路口左转等复杂交互工况中展现出优异性能(图1c);
- 理解环境:如何构建统一的交互认知?
在前两者的基础上,本研究将上述车与人的交互认知及环境约束集成于统一的人车在环深度强化学习框架,从而构建了端到端统一约束的车与环境交互模型(Unified Constrained Vehicle–Environment Interaction, UniCVE)。
具体而言,就是采用鸟瞰图空间统一编码多视角跨模态感知信息,通过超图神经网络学习环境要素间的高阶关系,并创新性地将大语言模型的驾驶知识蒸馏到实时模型中,统一表达了无人车与环境中各要素相互关联的复杂交互行为,实现了真正意义上的系统性环境理解。
![]()
图1 无人驾驶的具身交互智能。(a)无人车与环境交互:驾驶环境复杂性主要源于动态变化的路况,罕见的危险场景以及多样化的地形和气候条件等。(b) 无人车与人的肢体语言交互方法:基于时空超图的跨模态动作识别。 (c) 车体语言交互:包括狭路会车,超车并道和无保护十字路口多车交互等工况。
▍实现跨越:从模拟验证到万公里路测的交互智能闭环
本研究构建了一个端到端的感知-认知-行为闭环反馈框架。该框架的核心创新在于,它将自动驾驶汽车与不同交通参与者(人、车、环境)的复杂交互理解,整合为统一的奖励函数与软约束,从而使车辆能够以符合社会规范、可预测且安全的方式进行决策与行驶。
通过强化学习范式,该模型具备了持续学习与自我提升的能力。在模拟环境中,其交互智能已超越多种先进算法,展现出更接近人类的驾驶熟练度。
更具里程碑意义的是,该框架已通过大规模真实路测的验证。研究团队将最终集成的UniCVE模型 部署于东风无人驾驶巴士,在雄安新区复杂开放道路上,累计安全行驶超过22,000公里,完成了45,000次导航任务。此次成功部署,标志着该具身交互智能框架走出了仿真,迈向了现实应用。
尤为可贵的是,路测不仅证明了其有效性,也揭示了进化的方向。在存在严重视觉遮挡的路口等极端场景中,模型初期会表现出反应延迟。但研究发现,通过在特定高风险路口反复接触类似模式,模型能基于经验记忆发展出预判能力,实现主动安全适应。
这证明,该研究所提出的具身交互智能范式,使无人车具备了在碎片化场景中的自主终生学习机制,构建了从有限样本到无限智能的演化路径,为无人驾驶系统实现真正"懂人情世故"的社会化融入提供了理论支撑与技术路径,标志着无人驾驶技术从功能实现向认知智能的跨越式发展。未来,团队将着力增强模型对遮挡的感知能力、融入不确定性预测,并强化其记忆模块,以更好地应对各类复杂路口几何形状。
论文链接:https://doi.org/10.1016/j.eng.2025.09.032
▍主要作者简介:
![]()
马楠,北京工业大学人工智能学院院长,教授,博士生导师,入选2024年教育部长江学者奖励计划,青年北京学者,国家重点研发计划项目首席科学家,智能感知与自主控制教育部工程研究中心副主任,中国人工智能学会副秘书长,北京市智能制造与机器人技术创新专项负责人,北京市先进工作者。研究方向为交互认知、具身智能、无人驾驶与智能机器人。以第一完成人先后获得中国图象图形学学会科技进步一等奖、中国电子学会科学技术奖【技术发明类】二等奖;已在IEEE TPAMI、TRO、TIP、TNNLS、TMM、中国科学.信息科学、ACM MM、AAAI、ICRA等国内外学术期刊、会议上发表论文百余篇。
![]()
李德毅,中国工程院院士,国际欧亚科学院院士,中国人工智能学会名誉理事长,军事科学院研究员,清华大学博士生导师。先后获得国家科技进步二等奖1项、三等奖2项,部级科技进步一等奖3项、二等奖4项,荣获2020年吴文俊人工智能最高成就奖,主编技术丛书7本。