近日,AGIBOT WORLD CHALLENGE@ICRA 2026于奥地利维也纳完成R2A赛道线下总决赛环节,赛事整体分为线上选拔与线下落地两个阶段顺利收官。
![]()
这是智元机器人依托 ICRA(国际机器人与自动化会议)举办的具身智能竞技赛事,27 个国家及地区、526 支队伍参赛,参赛阵容横跨中科院、清华大学、中国科学技术大学、加州大学圣迭戈分校、俄罗斯 Sber Robotics Center,以及阿里、高德、vivo 等产业方,超百支队伍突破官方基准线。
01.
重新定义具身智能评测逻辑的一套赛制
ICRA是机器人领域公认的顶级国际学术会议,每年吸引全球顶尖研究团队投稿与参会。智元将AGIBOT WORLD CHALLENGE嵌入ICRA官方体系,这也使其区别于普通校园赛和纯仿真赛,后两类赛事缺乏真机验证环节,评测结果与产业部署的相关性有限。
![]()
这一定位也体现在赛道的具体设计上,赛事设置了两条核心赛道:R2A(Reasoning to Action,推理-操作)与WM(World Model,世界模型)。前者针对机器人的全链条任务执行能力,后者聚焦世界模型的训练与评测范式。这两个方向指向业界公认的两大核心技术瓶颈——机器人能否真正理解并执行开放式任务,以及模型能否对物理世界建立准确且可泛化的预测。
R2A赛道相较去年版本有明显升级。此前的评测框架偏向单一动作执行的准确率,此次重构为"环境理解—任务规划—动作执行"的完整链条,考核维度扩展到开放词汇理解、真实物理场景稳健交互与长程任务泛化三个层面,对参赛团队的综合技术储备提出了更高要求,也更接近机器人真实工作场景的复杂度。赛道依托Genie Sim 3.0开源仿真平台与AGIBOT WORLD开源数据集完成验证。
WM赛道的设计则直接挑战了行业惯例。传统世界模型评测倾向于使用理想化的仿真数据,轨迹规整、物理行为可预测。本届赛事刻意引入"空抓"、"掉落"等非理想物理轨迹样本,这些在真实操作中频繁发生的失败动作,在过去的评测体系里往往被过滤掉。将这类数据纳入训练与评测,是在要求模型具备对真实世界不确定性的处理能力,而非仅仅在受控环境下刷高分。WM赛道基于EWMBench评测基准,从三个核心维度对世界模型进行全方位考核:图像质量(Visual Quality)评估生成画面的精细度与清晰度;场景一致性(Scene Consistency)专注于物体在时间和空间上的连贯性,确保场景中的物体不会凭空消失、产生异变或错位;轨迹遵循度(Action Following)衡量模型对给定动作信号的响应准确度,关注生成画面中的动作是否合理、是否符合输入的动作条件。
![]()
![]()
WM赛道率先完成全部比拼,中科院自动化所联合高德 CV Lab 组建的 NeoVerse-ABot 团队拿下冠军,中科院工业人工智能研究院PAI@IAII团队、中科大 Loop 团队分列亚季军。前三名均来自学术机构或产学联合团队,在一定程度上反映出当前阶段世界模型技术的核心攻关力量仍主要集中在科研侧。
![]()
Reasoning to Action(R2A)赛道在维也纳完成线下收官对决,赛道考核从单一动作执行,拓展至环境理解、任务规划、实体操作全链条能力,聚焦弥合仿真到真机落地鸿沟。最终,来自vivo的PrismBot凭借在四个场景任务的稳定发挥获得冠军,来自上海萝博派对的RP-VLA获得第二,线上赛段持续领跑的俄罗斯团队GreenVLA获得季军。
![]()
02.
Sim2Real鸿沟:产业落地的真正卡点
Sim2Real Gap——算法在仿真环境中训练后部署到真实机器上性能显著下滑,这并非新话题,但在具身智能走向商业化的当下,它已从学术层面的技术挑战演变为制约行业落地速度的实际障碍。
![]()
造成这一鸿沟的原因是多层次的:仿真环境无法完整复现真实世界的物理摩擦、光线变化、物体形变与操作误差;仿真数据往往过于"干净",缺乏真实场景中的噪声与失败样本。硬件个体差异和环境干扰也难以在仿真中精确建模。
![]()
这些偏差累积起来,导致仿真评分与真机表现之间存在系统性落差。业内对"刷仿真分数"的质疑由来已久。部分团队通过大量仿真迭代拿到漂亮的评测数字,但换到真机就表现大幅下滑,学术成果难以直接转化为产品能力。
![]()
本届赛事的规则设计直接回应了这一问题。硬件层面,组委会要求晋级线下决赛的参赛队伍统一使用精灵G2机器人作为真机参赛平台,排除了硬件差异对成绩的干扰,让算法能力成为唯一变量,也确保了不同团队之间的成绩具有横向可比性。
![]()
大赛同期智元还联合Dexmal原力灵机打造了行业首个真实商超场景的全链路决策评测赛道,进一步验证真机落地能力。赛道将考场搬进高度还原的真实商超环境,直击行业全身控制(Whole Body Control, WBC)核心痛点。模型需直面货架层高限制、物品随机摆放等不可控物理复杂性,完成从自主导航、精细化取货到行走放置的完整移动操作全序列,彻底告别单一抓取Demo。全程采用API远程直连模式,选手代码直接驱动真实物理机器人完成实测,为具身智能全身控制能力提供了真实落地标尺。
评测标准层面,赛事聚焦真机稳定性、物理一致性与长程任务可靠性,而非仿真跑分。这套规则设计的底层逻辑是:仿真结果必须能在真机上得到验证,否则评测数字对产业决策没有参考价值。
03.
让全球团队站上同一起跑线的工具链
智元在本届赛事中配套推出Genie Sim 3.0仿真平台与AGIBOT WORLD开源数据集,结合统一真机硬件平台,共同构成了"数据集+仿真平台+硬件真机"三位一体的全链路体系。
![]()
Genie Sim 3.0采用与真机数据同源的设计思路:仿真环境的物理参数、传感器模拟、交互逻辑与真机采集数据保持对齐,目标是压缩仿真到真机部署的性能衰减。赛事同步发布的EWMBench和Genie Sim Benchmark两套评测基准,其中Genie Sim Benchmark提供多维度、全方位的仿真评测基准,覆盖机器人算法核心的五大能力——语言指令理解、空间关系认知、原子技能操作、环境扰动适应和零样本跨域迁移。两套基准主打评测流程自动化、指标标准化与结果可复现,让不同团队的成果具备横向对比的基础。
在公平性保障机制上,EWMBench采用全流程自动评测,消除人为主观干预;榜单实时滚动更新,在无排队情况下10分钟内即可出结果;赛事期间细分指标不对外公开、仅展示总分的"指标盲盒"机制,有效规避了针对指标漏洞的定向hack;每日提测次数限制则进一步杜绝了过拟合式刷分行为。
在数据集层面,WM赛道依托AGIBOT WORLD百万真机开源数据集构造了由10个不同任务组成的训练集,涵盖超3万条真实轨迹,覆盖抓取、放置、推、拉等多样的机器人-环境交互类型。测试集中既包含专家轨迹,也包含空抓、碰抓、掉落等不完美动作轨迹,旨在考察模型对动作信号的跟随能力以及物理属性的模拟能力——而这恰是多数现有评测基准的盲区:只包含完美轨迹,无法检验模型在分布外(Out-of-Distribution, OOD)情况下能否忠实跟随动作信号、模拟非理想操作下物体的真实物理属性。
对参赛团队而言,这套工具链的直接价值在于降低入门成本。开展具身智能研究历来门槛较高,需要自建数据采集体系、自购或借用机器人硬件、自行搭建仿真环境。对于高校实验室或早期创业团队,这些前期投入本身就构成了相当的资源壁垒。全链路开源工具链的存在,使得更多没有重资产条件的团队得以参与技术竞争,也在客观上为行业储备了具备真机实操经验的技术人才。
![]()
从526支参赛队伍的来源来看,27个国家和地区中包含俄罗斯、东南亚等机器人研究资源相对有限的地区,这一覆盖面在一定程度上反映了统一开放工具链对降低参与门槛的实际效果。
工具链和统一硬件平台形成生态后,其长期效应是将全球开发者和科研团队的技术积累沉淀在同一套基础设施上。随着使用规模扩大,平台的数据反馈与标准影响力也会同步增强。这也与智元对这套体系的定位一致。
04.
具身智能的评测话语权之争
智元合伙人、高级副总裁姚卯青在赛事期间表示,希望通过赛事推动行业形成"可验证、可落地"的技术共识,让具身智能真正走进现实世界。这句话背后,是具身智能评测标准的话语权问题。
过去几年,具身智能的评测体系相当分散。各家机构采用不同的仿真平台、不同的任务设计、不同的评分口径,导致横向比较几乎无从进行。一支团队声称在某项任务上取得显著进展,外部很难判断这一成果能在多大程度上泛化到其他场景或迁移到真机。评测体系的碎片化,客观上拖慢了行业在技术方向上形成共识的速度。
![]()
智元通过ICRA这一顶级学术会议背书,以及EWMBench、Genie Sim Benchmark两套自研评测基准的推出,试图在评测标准上建立一套可供行业参照的坐标系。ICRA的学术认可度,确保了这套标准在国际研究社区具备较高的初始接受度。
EWMBench聚焦Action-conditioned World Model这一细分赛道,相比主流视频生成基准更关注物理世界的具身交互理解,在与人类主观判断一致性上表现更优。其差异化价值在于,它并不追求通用视频生成的视觉保真度或语言对齐,而是针对机器人操作视频的特殊结构约束而设计,在这一场景中,背景布局、物体配置和具身结构应保持不变,只有机器人的姿态和交互随指令变化。这一设计使其能够更细致地反映世界模型在机器人操作中的真实表征保真度与实际效用,而非停留在视觉层面的表面评分。通过引入真机不完美轨迹,让评测更贴近世界模型在实际部署中的真实使用场景,而非停留在受控环境下的理想化表现。
能否真正被行业采纳,还取决于几个条件:标准本身能否随场景复杂度持续迭代;能否吸引更多独立机构基于此开展研究;以及能否让产业方认为评测结果对实际部署决策有参考价值。在这一点上,本届赛事中阿里、高德、vivo等产业团队的参赛,是一个值得关注的信号,产业侧的参与意味着这套评测框架被认为与实际业务场景存在关联,而非仅停留在学术考核层面。
目前,具身智能评测标准化仍处于早期阶段,国际上也有其他团队在推进各自的标准化工作。智元通过本届赛事搭建了一个有内容支撑的评测参照系,有望在接下来的时间,通过更多机构的独立验证成为行业通用尺度。
05.
结语与未来
AGIBOT WORLD CHALLENGE@ICRA 2026所触及的几个问题:仿真与真机的鸿沟、评测标准的碎片化、学术成果到产业部署的转化路径,这些都是具身智能当下面临的共性挑战。以真机验证为导向的评测体系,配套全链路开源工具链,在降低行业重复建设成本、推动技术成果可横向比较这两件事上,提供了一种有具体内容的实践方向。具身智能从实验室走向现实世界,需要的不只是算法突破,更需要可验证、可复现、可落地的基础设施与评测共识,这或许正是这届赛事更深远的意义所在。