智元GE 2.0登顶WorldArena：机器人如何在虚拟世界中学会进化？

2026-05-3110260人工智能（AI）

具身智能大讲堂获悉，5月29日具身智能评测榜单WorldArena Track1公布最新结果，智元自研的世界模型 Genie Envisioner-Sim 2.0（以下简称GE 2.0）凭借优异的综合表现，登顶榜单榜首。这个赛道测的是感知与动作响应能力，是判断通用人形机器人智能化水平的核心指标。

智元用的是原生GE 2.0，没针对赛题特殊优化，只基于榜单数据做了基础微调。这种“轻装上阵”还能拿第一，说明模型通用适配性强。

PART 01

世界动作模型与世界模拟器如何重构机器人训练

2025年智元发布行业首个世界模型开源平台Genie-Envisioner时，目标是让机器人“理解世界”，通过视觉、语言、动作的统一建模实现环境感知。现在发生了更深刻的进化：不只是让机器人理解世界，而是让它在世界中学习、成长、进化。哪怕这个世界是模型构建的。

智元的世界模型沿两条主线：世界动作模型（World Action Model）专注动作表征的深度建模，世界模拟器（World Simulator）负责打造可交互、可推演、可训练的完整环境。从“世界动作模型”到“世界模拟器”，世界模型在完成本质升级：从描述世界，进化为成为世界。

当模型构建的世界足够真实、稳定、高效，能像现实一样响应机器人的每一个动作，机器人就可以在模型世界里完成大规模训练、试错、迭代，大幅降低真实世界的试错成本。这是从“世界的表征”走向“世界本身”的关键一步。

PART 02

让世界模型理解“动作”：智元如何打通状态－动作－演化闭环？

机器人面对的世界是连续变化的，动作不只是输出，更是影响环境演化的核心变量。传统世界模型只建模“状态”，智元推进世界动作模型（WAM）方向，核心问题是：如何让世界模型理解“动作”这个变量。机器人做了什么动作？动作如何改变世界？世界又如何反馈给策略？智元把“状态－动作－状态演化”作为统一建模对象，使世界模型能成为策略学习与动作生成的基础表示层。

围绕这个方向，智元构建了EnerVerse，将具身场景拓展为可计算的4D世界模型；推出Genie Envisioner Act(GE-Act)，实现从世界表征到动作轨迹生成；通过Act2Goal让机器人实现目标驱动的长程控制。这些探索使世界模型首次具备承载动作策略的能力。

但真正的突破不止在于强化世界模型的表征能力，更在于世界模拟器的能力。世界模型不只是描述世界，而是要成为一个可以被使用、被交互、被训练的世界本身。如果一个足够高质量的世界模型被构建，那么在这个生成的世界中行动的策略也可以被更有效地训练。

基于此，智元在强化世界动作模型建模能力的同时，同步推动世界模型走向可交互的模拟器能力。通过EnerVerse-AC引入action-conditioned world modeling，使模型能基于动作进行未来推演；通过GE-Sim 1.0构建可用于策略闭环评估的神经模拟器；通过EWMBench从场景一致性、动作正确性、语义对齐等维度对world model的模拟能力进行系统评估。

更重要的是，一套全新的数据与训练范式随之建立。在Fidelity-Aware Data Composition中，真实数据与生成数据被精细组合，使策略训练既具备真实性，又有更强的泛化能力；Real2Edit2Real流程让真实数据不再只是被动采集，而是成为可被模型扩展与编辑的基础，显著提升数据规模与多样性。

至此，世界模型完成了一次本质跃迁，从表征模型，演进为具备环境级能力的系统基础设施。

PART 03

GE 2.0：一个可以“运行”的具身世界

在这一系列演进之上，智元在今年4月正式发布GE 2.0。它不再只是一个生成模型，而是一个可以被使用的系统，一个真正意义上的“可操作世界”。

世界开始由动作驱动。GE 2.0能严格响应机器人动作信号，生成高保真的环境变化，严格遵循物理与语义逻辑。世界不再是被想象的、无法被干预的，而是被行动不断推进的过程。

时间被拉长为完整任务。模型支持分钟级长时序稳定推演，从零散视频片段走向完整任务过程的连续生成。

空间被统一为具身体验。多视角视觉、跨视角3D一致性与机器人本体状态（proprioception）被统一建模，让机器人面对的不再是“画面”，而是一个完整、可交互的具身世界。

模型开始拥有“判断能力”。内置激励模型（General Reward Model），使模型首次具备自评估能力。它可以基于文本对生成状态自动评估与优化，无需人工激励的训练，可以完成强化学习（RL in World Model）。训练闭环第一次真正被内嵌进模型世界本身。

系统从离线走向实时。随着推理效率提升，GE 2.0已经可以接近实时运行，支持Eval in WM、RL in WM、Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是离线工具，而是可以实时交互的系统环境。

PART 04

可试错、可迭代、可进化：虚拟仿真环境如何反哺策略优化？

相比上一代，GE 2.0不只在单点性能上跃升，更演进为全功能、高可用的世界模拟器，可构建可试错、可迭代、可进化的虚拟仿真环境，让机器人策略在虚拟场景中自主积累经验、完成动态试错，规避真实场景的试错成本，最终高效迁移至真实物理世界稳定落地，真正实现从“感知预测”到“仿真进化、自主决策”的闭环升级。

功能矩阵全面补齐。GE 2.0首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节，构建了世界模拟器完整的技术能力闭环。

长时序推演能力突破。在长时序推理任务中，GE 2.0表现出极强的稳定性，画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演40—50秒的长视频片段时，其生成质量依然超越了基线模型前10秒内的表现。

高可靠的闭环评测。作为世界模拟器，核心在于能否真实反映物理世界。团队验证了大量闭环评测结果，证明GE 2.0在多项任务上均与真实世界保持强相关性。这种相关性不止步于宏观统计意义上的“成功率一致”，团队还进行了逐案（Case-by-case）的rollout结果对比分析，并通过混淆矩阵（Confusion Matrix）提供了严谨的量化佐证，强有力地证明了GE 2.0作为策略评测器的可靠性。