把“环境“也炼成模型:Qwen-AgentWorld 到底解决了什么问题

发布时间:2026/6/30 4:02:15

把“环境“也炼成模型:Qwen-AgentWorld 到底解决了什么问题 你要训一个会用终端的 Agent,就得真起一台机器、真执行命令、真把 stdout 喂回去;你要训一个会刷网页的 Agent,就得维护浏览器、处理反爬、handle 各种超时和弹窗;你要训一个会操作安卓的 Agent,还得挂模拟器、配 ADB、应付各种机型差异。这些环境又慢、又脆、又难并行,RL 训练里采样效率经常被环境拖死,而不是被算力拖死。Qwen 团队 2026 年 6 月放出的 Qwen-AgentWorld,思路很直接:既然环境这么难搞,那就用一个语言模型把环境本身学出来。一句话定位:它模拟的是环境,不是智能体这一点必须先掰清楚,否则很容易和 Qwen-Agent 那种 Agent 框架混为一谈。常规的 LLM Agent 是被训练成在环境里行动的——给它一个状态,它输出一个动作。Qwen-AgentWorld 反过来,它被训练成环境本身:给它当前状态和 Agent 刚做的动作,它来预测下一步会发生什么。放到一次完整的交互里看就清楚了:Agent 敲了ls -la /home/user/project/→ 世界模型预测终端会打印出哪些文件、权限、时间戳Agent 在网页上点了提交 → 世界模型预测页面会跳转到哪、DOM 变成什么样Agent 调了某个 MCP 工具 → 世界模型预测这个工具会返回什么 JSON它扮演的是那个返回 observation的角色。学术上这叫世界模型(World Model):根据当前观测和动作预测环境动态,本来是强化学习和规划里的核心机制,Qwen 把它落到了语言模型上,所以叫语言世界模型(Language World Model,LWM)。七个领域,一个模型Qwen-AgentWorld 一个模型覆盖了七类交互环境,分两大类:文本类(4个):MCP(工具调用)、Search(搜索)、Terminal(终端)、SWE(软件工程 / 代码仓库)GUI 类(3个):Web(网页)、OS(桌面操作系统)、Android(安卓)GUI 这三个领域的处理方式我觉得是整个工作里比较有意思的一个设计点。它没走预测像素帧这种视觉路线,而是把界面观测表示成可渲染的代码——网页用 HTML,桌面/安卓用无障碍树(accessibility tree)XML 和 UI 层级标记。这样一来,哪怕是图形界面,也能用纯文本来做世界建模。对一个语言模型来说,预测一段结构化的 XML,显然比预测一张图省事得多,也更容易判对错。而且这七个领域是塞进同一个模型里联合训练的,知识能跨域迁移,而不是每个领域单独搞一个专家模型。怎么训出来的:CPT → SFT → RL 三段式跟在通用 LLM 上事后接一层适配的做法不一样,Qwen-AgentWorld 是原生世界模型——从持续预训练(CPT)阶段开始,环境建模就是显式的训练目标。数据规模是 1000 万条以上真实环境交互轨迹。三个阶段各管一件事:CPT(持续预训练):从状态转移动态和增强的专业语料里,注入通用的世界建模能力,让模型先见过各种环境长什么样。SFT(监督微调):激活下一状态预测的推理能力。注意它是带长链思维(long CoT)的——模型在给出 observation 之前会先推理一遍按照这个环境的规则,这个动作应该导致什么结果。RL(强化学习):用一套混合了 rubric(评分量表)和 rule(硬规则)奖励的框架,把模拟保真度往上拉。跑分:397B 版本综合分超过了一众闭源前沿模型配套放出的评测基准叫 AgentWorldBench,从五个维度给每条预测出来的环境观测打分:格式(Format)、事实性(Factuality)、一致性(Consistency)、真实感(Realism)、质量(Quality),归一化到 0–100。七领域综合分(节选):模型MCPSearchTerm.SWEAndroidWebOS综合Qwen-AgentWorld-397B-A17B68.2437.8257.7368.4960.2050.9867.8958.71GPT-5.470.1037.2653.6966.2960.0051.8068.5858.25Claude Opus 4.669.9029.3057.5164.5561.7451.4270.2057.80Claude Opus 4.854.9335.1459.1864.1061.5054.6666.6256.59Qwen-AgentWorld-35B-A3B64.7936.6953.9665.6358.1749.5565.9256.39Qwen3.5-35B-A3B(无 LWM 训练)57.8725.9846.1347.5853.1847.1056.2747.73两个数字值得拎出来:397B-A17B 综合 58.71,压过了 GPT-5.4(58.25)和其它所有闭源前沿模型。优势最明显的是 Terminal 和 SWE——这两个领域要预测对,就得真的把代码执行状态和工具 API 行为建模准,水分掺不进去。35B-A3B 这个开源小版本,比同规模没做 LWM 训练的 Qwen3.5-35B-A3B 整体高了 8.66 分(47.73 → 56.39),已经反超了 Claude Sonnet 4.6(56.04)。Search 这一项尤其夸张,从 25.98 直接拉到 36.69。它到底有什么用:两条应用路径光是一个跑分高的世界模型没意义,关键看它怎么反哺 Agent。Qwen 给了两条互补的路子,实测数据也都给了。路径一:当解耦的环境模拟器,做 agentic RL这是最直接的用法。训 Agent 时,不再去搭真实的终端/浏览器/安卓,直接拿世界模型当虚拟环境跑 RL。好处是可扩展、可控。可扩展(零样本泛化到没见过的环境):在 4000 个分布外(OOD)的 OpenClaw 环境上做 Sim RL,用 Qwen-AgentWorld-397B 当模拟器,QwenClawBench 从 47.9 提到 55.0(7.1),明显好过用普通模型当模拟器。可控(注入扰动 构造虚拟世界):MCP 环境适配:通过控制指令注入有针对性的扰动,专门去暴露 Agent 的弱点。受控 Sim RL 在 MCPMark 上把分数从 21.5 拉到 33.8(12.3),而不加控制的 Sim RL 几乎没提升。Search 虚构世界:更离谱的一个结论——让 Agent 在完全虚构、但自洽的搜索世界里训练,居然能泛化到真实搜索任务。WideSearch 的 F1 Item 从 34.02 提到 50.31(16.29)。可控这一点是真实环境给不了的:真环境你没法说我想让它在这个边界条件下犯错,但模拟器可以。路径二:学会预测环境,本身就能让 Agent 变强这条路更反直觉。只用单轮、非 agentic 的轨迹给模型做一遍 LWM RL 预热(就是单纯训它预测环境),这种预测知识居然能零微调地迁移到多轮、要调工具的 agentic 任务上。而且是跨域迁移。在七个 benchmark 上,包括三个完全域外的,全都涨:任务Terminal-Bench 2.0SWE-Bench VerifiedSWE-Bench ProWideSearchClaw-Eval(域外)QwenClawBench(域外)BFCL v4(域外)基线 SFT33.2564.4742.1833.3853.6039.7662.29 LWM RL 预热39.5567.8647.4246.1764.8849.4371.25Δ6.303.395.2412.7911.289.678.96含义其实挺深:一个模型如果真的理解了环境怎么运转,这种理解会沉淀成它行动时的先验。会预测,才会行动。上手:35B-A3B 怎么跑目前开源的是 Qwen-AgentWorld-35B-A3B(MoE,35B 总参 / 3B 激活,256K 上下文,Apache 2.0),以及 AgentWorldBench 数据集。397B 那个只给了论文和数据,权重没放。vLLM 起服务:vllm serve Qwen/Qwen-AgentWorld-35B-A3B \ --port 8000 \ --tensor-parallel-size 4 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --trust-remote-codeSGLang 起服务:python -m sglang.launch_server \ --model-path Qwen/Qwen-AgentWorld-35B-A3B \ --port 8000 \ --tensor-parallel-size 4 \ --context-length 262144 \ --reasoning-parser qwen3两个都会暴露一个 OpenAI 兼容的/v1接口。调用上的核心,是 system prompt 要把模型设定成对应领域的世界模型。官方在仓库prompts/目录下给了七个领域的system_prompt.txt模板。一个终端世界模型的最小例子:messages [ { role: system, content: You are a language world model simulating a Linux terminal environment. Given the users command, predict the terminal output. }, { role: user, content: Action: execute_bash\nCommand: ls -la /home/user/project/ } ]要在自己的领域数据上微调,官方建议用 Swift、LLaMA-Factory、UnSloth 这些框架。跑 AgentWorldBench 评测是三步:eval.py infer(世界模型推理)→eval.py judge(LLM 当裁判打分)→eval.py score(汇总)。裁判用的是外部 API,五个维度分别打分再聚合。有一个细节要注意:每条样本自带system_str字段,评测时用的是样本自己的 system prompt,仓库里prompts/那些只是参考模板。一点判断Qwen-AgentWorld 真正动的是 agentic RL 里最贵、最难规模化的那块——环境。把搭环境、维护环境这件事,换成一个可控、可批量、可注入扰动的语言模型来模拟,采样效率和实验自由度都不是一个量级。当然它也不是没有边界。世界模型本身的保真度有上限,模拟久了误差会累积;Search、Web 这些领域的分数绝对值其实都还不高(综合分里 Search 全员三十几分),说明对真实世界细节的建模离以假乱真还差得远。但作为一个方向,把环境也炼成模型这条路,我觉得是这一年 Agent 工程里比较值得跟的一个。论文:arXiv 2606.24597 · 代码:github.com/QwenLM/Qwen-AgentWorld · 权重:Hugging Face / ModelScope 搜 Qwen-AgentWorld-35B-A3B

相关新闻