左脚踩右脚进击多模态:用 Agent 自进化训练,让 VLM 与视频生成模型真正“长出眼睛和导演思维”

发布时间:2026/7/2 21:29:57

左脚踩右脚进击多模态:用 Agent 自进化训练,让 VLM 与视频生成模型真正“长出眼睛和导演思维” 左脚踩右脚进击多模态用 Agent 自进化训练让 VLM 与视频生成模型真正“长出眼睛和导演思维”为什么你的视觉模型总在“胡说八道”为什么 AI 视频超过 10 秒就开始剧情崩坏本文揭示一种特别为多模态大模型设计的“左脚踩右脚”自进化训练法——让 VLM 和视频生成模型在真实交互中长出视觉推理能力、物理常识和导演思维。这种方法对多模态模型的帮助甚至比纯文本 LLM 更加深远和“解渴”。1. 重新审视到底什么是“左脚踩右脚”自进化训练先给新读者三句话讲清楚我们之前提出的方法核心思想用模型自己扮演 Agent在环境中执行复杂任务记录每一步“思考-行动-观察”的完整轨迹然后把这些轨迹作为训练数据微调或强化模型自身。为什么叫左脚踩右脚模型生成数据 → 用数据训练模型 → 更强的模型生成更高质量的数据 → 再训练形成自力更生的正反馈闭环。训练什么不仅是最终答案更重要的是工具使用、长程规划、多步推理和上下文自主压缩等“行动派”能力。这个闭环在纯文本 LLM 领域已经被 AgentBank、自蒸馏SDFT、过程奖励PRM等工作验证有效。但今天我们要把目光转向更需要它的战场——视觉语言模型 (VLM) 和视频生成模型。当前多模态模型 MtVLM/视频 Agent 执行任务记录全链路轨迹图像/视频/动作/工具调用/压缩质量评估与过滤视觉一致性规则人审构造训练数据分镜轨迹/视觉推理链/压缩样本训练下一代模型 Mt1扩展任务/环境/工具2. VLM 的困境静态图文训练的天花板当前的 VLM如 GPT-4V, LLaVA, Qwen-VL 等主要训练范式是图像 文本问题 → 文本答案这是一种端到端的静态映射。它让模型学会了很多视觉概念和常识但也埋下两个致命问题2.1 “视觉幻觉”和“指代错误”难以根除模型常常把图中的 A 说成 B或者“看到”根本不存在的东西。为什么因为缺少可纠错的中间推理过程。端到端映射就像学生做题直接写答案而不打草稿——错了你都不知道他是哪一步开始错的。2.2 不会“主动看”注意力机制不等于观察策略VLM 虽然有内在的注意力分布但它没有学会有策略地观察。比如面对一张高分辨率文档人类会先扫标题、再定位表格、最后细读单元格。但 VLM 常常一把抓结果漏掉关键细节。2.3 Agent 自进化如何破局——把“视觉黑盒”变成“思考链”我们让 VLM以 Agent 的身份去处理图像任务并记录它的完整思考路径看到图片 → 思考“我需要先找到菜单栏因为问题问的是操作步骤”调用 OCR 工具识别菜单文字观察返回结果 → 若没找到目标思考“可能菜单被截断了我需要尝试滚动”采取滚动动作 → 观察新截图 → 继续直到成功记录下来的轨迹长这样[Step 1] Thought: “问题涉及设置选项先找主菜单。” Action: call_object_detector(menu_bar) Observation: 检测到顶部菜单栏含‘文件、编辑、视图、工具、设置’。 [Step 2] Thought: “找到了‘设置’菜单需要点击它。” Action: click(x450, y15) Observation: 新截图显示下拉菜单... [Step 3] Thought: “下拉菜单里没有直接的目标项可能需要进入子菜单。” Action: scroll_down() ...用这些高质量视觉推理轨迹训练 VLM等于教它不要凭直觉瞎猜要学会调用工具、观察局部、构建逻辑链条。训练后的模型会在看到图像时自动生成类似的内部推理视觉幻觉率将大幅下降。否是用户提问 图像VLM Agent思考: 我该先看哪里动作: 调用 OCR / 目标检测 / 截图放大观察: 工具返回结果信息足够回答输出最终答案记录完整轨迹训练增强版 VLM3. 视频生成的“不可能三角”质量、长度、一致性视频生成模型Sora、Runway Gen-3、可灵等虽然惊艳但有一个公开的痛点生成长视频时质量、长度、一致性三者不可兼得。超过 10 秒人物可能突然变脸物体凭空出现又消失剧情逻辑断裂。根本原因在于当前主流方法依然是“从文本到视频”的单步映射。一个 prompt 要直接生成数百帧无论扩散模型还是自回归模型都很难精确控制时空细节。而 Agent 的训练方法恰好为这一难题提供了系统级的解法。3.1 引入“导演 Agent”把生成拆成分镜-执行-检查-修正想象一个电影剧组导演不会自己上去演每一帧而是写剧本、画分镜、指导摄影师和演员再通过监视器检查每一个镜头。把视频生成过程改造成同样的结构编剧阶段LLM 将用户故事扩展成详细剧本分镜阶段Agent 将剧本拆成分镜头表规定每一镜的画面内容、运镜、时长、角色状态生成阶段调用视频生成模型底层“演员”逐镜生成检查阶段另一个审查 Agent 观看生成的片段检查人物一致性、动作连贯性、与下一镜开头的匹配度修正阶段如果不匹配调整 prompt 或参数重新生成当前镜拼接所有片段通过后再合成最终视频。这套流程能跑通而且有一个巨大的副产品——过程的完整轨迹剧本、分镜、生成参数、审查反馈、修正记录、最终连贯性得分。这些数据对视频生成模型来说是超级养料。3.2 用“导演轨迹”训练底层视频模型让它从“演员”变成“演员导演”目前视频模型的训练数据主要是视频-文本对模型只学会了“根据描述生成对应视频”。它不懂什么叫“保持角色跨镜头一致”更不懂“如何根据上一镜的结尾决定下一镜的开头”。但是如果我们把上面的导演 Agent 产生的高质量分镜轨迹作为训练目标教给底层模型输入不再只是一个 prompt而是一个分镜序列 上下文约束前一镜最后一帧、角色参考图、场景约束输出是满足跨镜一致性要求的视频片段用“审查 Agent 的一致性打分”作为奖励信号进行 RL 微调。这样一来模型就将从“单幕演员”进化为能理解时空约束、执行导演意图的“专业演员”。它即使在没有外部 Agent 辅助的情况下也能在生成过程中隐式地遵守更复杂的叙事规则。不通过通过用户故事编剧 Agent生成详细剧本分镜 Agent拆解分镜头表生成 Agent调用视频模型逐镜生成审查 Agent检查一致性/连贯性修正 Agent调整参数重生成拼合最终视频记录生成参数与视频轨迹训练集用于微调底层视频模型4. 为什么说 Agent 训练对多模态模型“更有帮助”这里涉及一个本质逻辑对于纯文本 LLM人类可以相对容易地写出高质量的“思考过程”数据。但对于视觉和视频人类几乎无法手动写出一个像素级的、可操作的“视觉思考过程”。比如你问人“你怎么认出这张模糊图片里的是一只猫”他很难描述他是如何结合耳朵轮廓、胡须比例、体态来判定的。而 Agent 的交互轨迹正是把这个“只可意会”的过程外化和结构化了。原因有三4.1 高维数据的降维与结构化图像和视频是极高维度的数据。Agent 的思考过程本质是在做降维提取关键帧、识别关键物体、规划关键动作。这种“结构化中间表示”是训练模型理解高维数据的最佳桥梁。4.2 时空因果律的显式建模视频包含时间轴天然是序列决策问题。Agent 的“行动-观察-再行动”循环恰好显式地记录了模型如何随时间调整策略。用这种轨迹训练视频模型等于直接教它什么是时间因果——不是死记硬背帧与帧的关联而是理解“因为我选择了这个运镜所以接下来的画面应该包含什么”。4.3 失败也值钱归因信息远胜废片直接跑视频生成失败了就是一段废视频你只能扔掉。但如果是 Agent 跑出来的失败你知道是哪一镜崩了是剧本要求违背了物理规律还是生成器没能遵循分镜指令这种失败归因信息对训练的价值远超成功视频。它让模型不仅能学“怎么做是对的”还能学“什么情况下容易出错如何避免”。5. 前沿印证这些苗头已经出现本文的方法并非空中楼阁。许多前沿工作已经无意识地踩在了同一条路上VLM Agent 方向ViperGPT让 LLM 生成 Python 代码来调用视觉库检测、分割、OCR完成复杂视觉问题。这种“代码视觉 API 调用”的序列正是典型的 Agent 轨迹。Visual ChatGPT / InternGPT连接多种视觉基础模型通过对话式交互完成复杂图像编辑与理解交互日志可直接作为训练数据。OS-Copilot / CogAgent在 GUI 环境中记录大量“截图-动作-新截图”轨迹训练出的 VLM 在数字代理任务上远超静态截图 SFT 的基线。视频生成规划方向VideoDrafter显式地用 LLM 生成多步规划实体、动作、背景再引导扩散模型逐步生成。已经暗含了“规划轨迹”的概念。Story-to-Video 研究多家团队在探索“剧本→分镜→生成→拼接”的管道只是尚未形成训练闭环。世界模型DeepMind 的 Genie、Runway 的 General World Models 等均强调通过交互数据学习世界动态这与 Agent 自进化训练高度共鸣。这些工作说明Agent 思维正在向多模态渗透只是缺少一个完整的“自进化训练”框架把它们串起来。而这正是本文提出的方案。6. 落地路线图从实验到产品化的三步走如果你正准备在多模态领域尝试这个思路这里给出一个精简的路线图。第 1 步搭建可交互的 Agent 环境2-4 周VLM 方向选用 GUI 模拟器如 OSWorld、MiniWoB或具身模拟环境让 VLM 在里面执行任务。视频生成方向搭建“分镜生成审查”管道可用开源视频模型如 Open-Sora作为底层生成器。关键产出统一的轨迹记录格式JSON/Parquet包含原始感官输入、思考过程、采取的动作、环境反馈、中间检查点。第 2 步收集轨迹并微调第一代“增强模型”6-8 周用当前最强模型甚至可以是 GPT-4V 等强模型作为初始 Agent跑出 500-1000 条高质量轨迹。通过自动规则动作合法性、视觉一致性分数 少量人工抽检筛选成功及高价值失败片段。用这些轨迹对开源 VLM/视频模型进行 SFT行为克隆有条件可加入过程奖励 RL。第 3 步启动闭环持续进化长期用训练好的模型替换初始 Agent再次跑任务收集新轨迹。引入自蒸馏SDFT 风格防止遗忘原有能力。逐步扩展任务难度和环境复杂性新软件界面、新物理场景、更长故事。7. 总结多模态模型的“雪中送炭”与“破局关键”模型类型主流训练痛点Agent 自进化训练的解法性质VLM视觉幻觉、端到端黑盒、无结构化推理教模型“调用工具观察多步推理自我验证”雪中送炭视频生成长程一致性差、物理规律违背、叙事断裂教模型“分镜规划逐镜生成审查修正”破局关键如果说对于纯文本 LLMAgent 自进化训练是“锦上添花”——让模型从回答者升级为问题解决者那么对于 VLM 和视频生成模型这个方法是打通任督二脉的内功心法。它让 VLM 从“看图猜话”进化为能主动探查、调用工具、逻辑推理的视觉智能体它让视频生成模型从“单次采样器”进化为具备导演思维、懂得叙事语法和时空约束的可控创作者。而且最关键的一点这套方法不需要无限堆砌人工标注。你只需要搭建一个合理的 Agent 环境和评估器让模型自己在里面“跑起来”它就会自己产出训练自己下一步跃迁的高质量数据。左脚踩右脚听起来像杂技但它在多模态领域可能就是通向可扩展智能的最短路径。

相关新闻