告别“训练造假”!Agent-World挖了1978个真实场景,智能体终于能落地不翻车

2026-04-22100

大模型早就卷过了“聊天好用”的阶段,现在所有人都在盯着同一件事——做真正能用的通用智能体。

理想很美好:自动查资料、处理订单、操作软件、对接线上服务,帮人把烦琐工作全搞定。可现实特别骨感:绝大多数智能体一上真实场景就掉链子,步骤错、状态乱、工具用不明白,看着演示很炫,落地基本没戏。

问题到底出在哪?不是模型不够大,而是训练环境太拉胯。

要么是模型自己瞎编的仿真环境,跟现实工具逻辑完全对不上;要么是人工一点点堆出来的小场景,成本高还扩不起来。更坑的是,训练完就结束,智能体哪里不行没人知道,更不会自己改进。

Image
 

最近,字节跳动Seed团队联合中国人民大学,提出了一个叫Agent-World的新方案,直接把智能体训练从“模拟过家家”拉到了“真实世界练兵”的轨道。

它不搞人工造景,也不靠虚拟仿真,而是从互联网里扒真实数据、搭真实环境、生成能实际跑的任务,还能自己诊断智能体的短板,一轮一轮补强。在23个行业标准测试里,8B和14B版本直接超过了一众闭源模型和环境扩展方案,成绩相当硬。

 

PART 01

现在的智能体训练,到底卡在哪了?

 

随便点开一个智能体demo,都能秀出一堆操作:查天气、订机票、写总结、改代码。可真放到业务里,立刻原形毕露。

订机票的时候,不先查库存就直接下单;处理售后时,前面改了订单状态,后面完全没跟上;调用多个工具时,顺序一塌糊涂,根本跑不完完整流程。

这些问题,靠堆参数解决不了。根源就在训练环境:纯LLM模拟出来的环境,反馈全是编的,状态变化和真实工具完全不一样,智能体学到的逻辑到现实里全不适用;人工搭建的沙箱场景太少,覆盖不了电商、办公、金融、开发这些真实行业,扩量成本高到没法落地;一次性训练完事,智能体的错误和短板没人分析,更不会针对性补训练,只能靠碰运气提升。

MCP协议本来给智能体连接真实服务铺了路,可环境这块短板不补上,再好的标准也发挥不出价值。

Agent-World盯准的就是这三个核心问题:环境够真实、规模能做大、训练能自己迭代升级。

 

PART 02

不用人工搭场景,从网上挖出1978个真实训练环境

 

Agent-World最不一样的地方,就是它的训练环境不是编的,是从真实世界里挖出来的。

研究团队先找了三类实打实的数据源定方向:真实的MCP服务器说明、市面上成熟的工具文档、工业级的产品需求PRD,先把几千个真实场景主题捋出来。

Image
 

Agent-World 概述(左图)及下游通用智能体性能(右图)。环境缩放分析报告了 MCP-Mark、BFCL V4 和 τ²-Bench 代表性子领域的平均得分。

之后交给两套自动化智能体干活:

一个负责深度检索,靠着搜索、浏览器、代码工具,对着每个主题去网上扒结构化数据,整理成能读写的真实数据库;

另一个负责编码,基于数据库生成能直接运行的工具接口,再放到沙箱里跑测、做单元校验,不合格的直接淘汰。

Image
 

智能体化环境 - 任务发现流程。团队从真实世界环境主题出发,从网络中挖掘与主题匹配的数据库,生成并验证可执行工具接口,同时合成难度可控的可验证任务。

最后筛出来的训练生态,完全贴近现实使用场景:一共1978个可用环境,分20个大类、50个子类,电商、邮件、日历、酒店、代码仓库、浏览器自动化、金融分析全都包含;19822个可执行工具,每个场景平均配10个以上工具,多的能到40多个,参数、接口、调用逻辑和真实服务保持一致;数据库用的都是json、csv、sql、html这类现实工作中常用格式,不是随便捏造的假数据。

Image
 

Agent-World 的分层环境分类体系。左图:20 个一级类别的分布及其服务器数量。右图:按服务器数量排名的前 10 个二级类别。

环境搭好了,任务也不是随便写几句指令。Agent-World用了两种方式生成够难、能验证的任务:

一种是把工具之间的依赖关系画成图,随机走出一串执行步骤,模拟必须按顺序操作的真实流程,比如退货、查订单;

另一种是直接生成带判断、循环、跨库计算的Python代码,应对更复杂的非线性推理任务。

所有任务都能实际运行验证,难度可以调整,最长交互步骤能到40步以上,就算是很强的闭源模型,十次里也未必能顺利完成一次。

 

PART 03

自己找漏洞、自己补短板,智能体和环境一起变强

 

比大规模真实环境更关键的是,Agent-World做到了自我进化,不是训练一次就定型,而是不断迭代、越练越强。

Image
 

持续自进化智能体训练的整体框架。智能体在可执行奖励的监督下,通过多环境强化学习进行训练(上图),在动态竞技场中接受评估、诊断能力缺口,并通过针对性的环境 - 任务扩展实现提升(下图)。

整个流程是一个完整闭环:

先让智能体在多环境里做强化学习,不只看最终答案对不对,还会关注执行效率、状态更新是否正确、格式是否合规,用能实际运行的结果作为优化信号。

然后系统会构建一个动态测试场,按照场景类别抽一批环境,每一轮迭代都生成新任务,避免智能体死记硬背测试集。

接下来诊断智能体上场,把失败的交互记录拆开分析:是工具调用错误、状态没更新对,还是长步骤规划能力不足,直接定位到薄弱场景和具体问题。

最后针对这些短板,扩充对应环境的数据、生成针对性任务,再继续训练。

相当于给智能体配了一个全自动教练,全程不用人管,自动找弱项、自动加练、自动提升。

 

PART 04

小参数模型也能打赢大模型

 

研究团队把Agent-World-8B和14B放到23个主流智能体测试集里做了全面验证,结果打破了“参数越大越强”的固有印象。

Image
 

智能体工具使用基准测试的主要结果。研究团队报告了三个基准测试套件(MCP-Mark、BFCL V4 和 τ²-Bench)的准确率(%)。在开源环境缩放方法板块中,每列的最佳结果以粗体标记,次佳结果以下划线标记。

在MCP-Mark、BFCLV4、τ²-Bench三个核心工具调用测试中:

Agent-World-8B在τ²-Bench拿到61.8%,BFCLV4拿到51.4%,超过同尺寸所有环境扩展方案,甚至优于更大参数的模型;

14B版本进一步提升,τ²-Bench达到65.4%,BFCLV4达到55.8%,超过DeepSeek-V3.2-685B,和GPT-5.2High、Gemini-3Pro处于同一水平。

Image
 

长周期智能体推理场景的泛化能力。从通用推理、智能体搜索与编码、知识与 MCP 三个能力维度,对 Qwen3-8B、EnvScaler-8B 和 Agent-World-8B 进行对比。

在需要长流程规划、软件工程、深度检索的任务里,比如WebWalkerQA、SWE-Bench、Terminal-Bench,Agent-World的优势更明显,远超基线模型。

团队也验证了清晰的规律:环境数量越多,性能越好;自进化轮次越多,效果越稳。尤其是对状态依赖强的MCP类任务,两轮进化就能带来近10个点的提升。

训练过程中,模型效果稳步上涨,没有过早收敛,还在持续探索新的交互方式,证明这种自进化模式可以长期持续。

 

PART 05

结语与未来

 

Agent-World其实推翻了行业里一个长期误区:做好智能体,不是死磕更大模型、更多算力,而是给它一个贴近现实的训练环境,再让它能持续学习。

过去的智能体,在虚拟环境里训练,到真实世界出错;Agent-World的智能体,在真实环境里训练,落地更稳定。

它依托MCP协议,把真实服务、工具、数据接入训练流程,用自动化流程解决环境规模化问题,再用自进化闭环实现持续升级。对于企业智能助手、自动化开发、深度信息检索、MCP生态落地来说,这是一套可以直接参考的可行方案。

字节和人大这次没有推出更大的模型,而是重新搭建了智能体成长的底层环境。

当智能体不再被虚拟仿真限制,能在真实的工具和数据里自主学习、不断补强,那种真正能稳定承担复杂工作的通用智能体,就不再是遥远的概念。

 

 

论文地址:https://arxiv.org/abs/2604.18292

项目地址:https://agent-tars-world.github.io/-/