具身智能大讲堂获悉,5月29日具身智能评测榜单WorldArena Track1公布最新结果,智元自研的世界模型 Genie Envisioner-Sim 2.0(以下简称GE 2.0)凭借优异的综合表现,登顶榜单榜首。这个赛道测的是感知与动作响应能力,是判断通用人形机器人智能化水平的核心指标。

智元用的是原生GE 2.0,没针对赛题特殊优化,只基于榜单数据做了基础微调。这种“轻装上阵”还能拿第一,说明模型通用适配性强。
PART 01
世界动作模型与世界模拟器如何重构机器人训练
2025年智元发布行业首个世界模型开源平台Genie-Envisioner时,目标是让机器人“理解世界”,通过视觉、语言、动作的统一建模实现环境感知。现在发生了更深刻的进化:不只是让机器人理解世界,而是让它在世界中学习、成长、进化。哪怕这个世界是模型构建的。

智元的世界模型沿两条主线:世界动作模型(World Action Model)专注动作表征的深度建模,世界模拟器(World Simulator)负责打造可交互、可推演、可训练的完整环境。从“世界动作模型”到“世界模拟器”,世界模型在完成本质升级:从描述世界,进化为成为世界。
当模型构建的世界足够真实、稳定、高效,能像现实一样响应机器人的每一个动作,机器人就可以在模型世界里完成大规模训练、试错、迭代,大幅降低真实世界的试错成本。这是从“世界的表征”走向“世界本身”的关键一步。
PART 02
让世界模型理解“动作”:智元如何打通状态-动作-演化闭环?
机器人面对的世界是连续变化的,动作不只是输出,更是影响环境演化的核心变量。传统世界模型只建模“状态”,智元推进世界动作模型(WAM)方向,核心问题是:如何让世界模型理解“动作”这个变量。机器人做了什么动作?动作如何改变世界?世界又如何反馈给策略?智元把“状态-动作-状态演化”作为统一建模对象,使世界模型能成为策略学习与动作生成的基础表示层。

围绕这个方向,智元构建了EnerVerse,将具身场景拓展为可计算的4D世界模型;推出Genie Envisioner Act(GE-Act),实现从世界表征到动作轨迹生成;通过Act2Goal让机器人实现目标驱动的长程控制。这些探索使世界模型首次具备承载动作策略的能力。
但真正的突破不止在于强化世界模型的表征能力,更在于世界模拟器的能力。世界模型不只是描述世界,而是要成为一个可以被使用、被交互、被训练的世界本身。如果一个足够高质量的世界模型被构建,那么在这个生成的世界中行动的策略也可以被更有效地训练。

基于此,智元在强化世界动作模型建模能力的同时,同步推动世界模型走向可交互的模拟器能力。通过EnerVerse-AC引入action-conditioned world modeling,使模型能基于动作进行未来推演;通过GE-Sim 1.0构建可用于策略闭环评估的神经模拟器;通过EWMBench从场景一致性、动作正确性、语义对齐等维度对world model的模拟能力进行系统评估。
更重要的是,一套全新的数据与训练范式随之建立。在Fidelity-Aware Data Composition中,真实数据与生成数据被精细组合,使策略训练既具备真实性,又有更强的泛化能力;Real2Edit2Real流程让真实数据不再只是被动采集,而是成为可被模型扩展与编辑的基础,显著提升数据规模与多样性。
至此,世界模型完成了一次本质跃迁,从表征模型,演进为具备环境级能力的系统基础设施。
PART 03
GE 2.0:一个可以“运行”的具身世界
在这一系列演进之上,智元在今年4月正式发布GE 2.0。它不再只是一个生成模型,而是一个可以被使用的系统,一个真正意义上的“可操作世界”。

世界开始由动作驱动。GE 2.0能严格响应机器人动作信号,生成高保真的环境变化,严格遵循物理与语义逻辑。世界不再是被想象的、无法被干预的,而是被行动不断推进的过程。
时间被拉长为完整任务。模型支持分钟级长时序稳定推演,从零散视频片段走向完整任务过程的连续生成。
空间被统一为具身体验。多视角视觉、跨视角3D一致性与机器人本体状态(proprioception)被统一建模,让机器人面对的不再是“画面”,而是一个完整、可交互的具身世界。
模型开始拥有“判断能力”。内置激励模型(General Reward Model),使模型首次具备自评估能力。它可以基于文本对生成状态自动评估与优化,无需人工激励的训练,可以完成强化学习(RL in World Model)。训练闭环第一次真正被内嵌进模型世界本身。
系统从离线走向实时。随着推理效率提升,GE 2.0已经可以接近实时运行,支持Eval in WM、RL in WM、Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是离线工具,而是可以实时交互的系统环境。
PART 04
可试错、可迭代、可进化:虚拟仿真环境如何反哺策略优化?
相比上一代,GE 2.0不只在单点性能上跃升,更演进为全功能、高可用的世界模拟器,可构建可试错、可迭代、可进化的虚拟仿真环境,让机器人策略在虚拟场景中自主积累经验、完成动态试错,规避真实场景的试错成本,最终高效迁移至真实物理世界稳定落地,真正实现从“感知预测”到“仿真进化、自主决策”的闭环升级。
功能矩阵全面补齐。GE 2.0首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节,构建了世界模拟器完整的技术能力闭环。


长时序推演能力突破。在长时序推理任务中,GE 2.0表现出极强的稳定性,画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演40—50秒的长视频片段时,其生成质量依然超越了基线模型前10秒内的表现。

高可靠的闭环评测。作为世界模拟器,核心在于能否真实反映物理世界。团队验证了大量闭环评测结果,证明GE 2.0在多项任务上均与真实世界保持强相关性。这种相关性不止步于宏观统计意义上的“成功率一致”,团队还进行了逐案(Case-by-case)的rollout结果对比分析,并通过混淆矩阵(Confusion Matrix)提供了严谨的量化佐证,强有力地证明了GE 2.0作为策略评测器的可靠性。

打通数据回流反哺机制。在奖励模型(Reward Model)的加持下,GE 2.0能对闭环评测的rollout过程进行自动化筛选,将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model)。实验证明,这一机制在多项任务上均助力策略模型实现了显著的性能涨点。
PART 05
结语与未来
世界动作模型与视觉-语言-动作模型深度融合,使机器人策略从被动响应环境的反应式控制,升级为能预判未来、规划全局的生成式决策。世界模拟器搭建的虚拟训练场,使机器人可以大规模试错、反复优化。
当这两条路径交汇,机器人不再是机械复现人类经验的“执行者”,而是能在模型世界中不断探索、修正、突破的“学习者”,它的能力边界,正被重新定义。
Project page: https://ge-sim-v2.github.io/
Arxiv: https://arxiv.org/abs/2605.27491
Github: https://github.com/AgibotTech/GE-Sim-V2