通过世界模拟器进行具象化视觉空间推理 (Astra)

发布时间:2026/6/6 1:40:24

通过世界模拟器进行具象化视觉空间推理 (Astra) 通过世界模拟器进行具象化视觉空间推理 (Astra)论文来源: arXiv:2606.06476 |主题: 空间推理、世界模拟器、强化学习、具身智能、思维链 摘要与核心贡献当前视觉语言模型VLMs虽然在视觉推理方面表现强劲但在空间推理能力上仍局限于观察到的图像和面向文本的链式思维。本文提出Astra框架将空间推理转化为交互式证据获取过程通过自然语言相机运动指令主动查询世界模拟器World Simulator。 核心贡献思考与具象化 (Thinking with Imagination)通过世界模拟器将空间推理转化为交互式过程实现跨视角一致性与推理未观察布局的能力。Astra-WM (世界模拟器)基于 Bagel 的模拟器通过视图一致性调优生成空间一致的新视角。Astra-VL (代理策略)基于强化学习的策略模型从 Qwen3-VL-8B 初始化决定何时调用模拟器、选择相机运动并评估返回的观测结果。RL 数据与策略采用两阶段 RL 课程训练通过硬样本保留策略构建了 6k 的高质量训练样本。1. 核心架构与组件组件描述Astra-WM基于 Bagel 的模拟器通过视图一致性调优 (View Consistency Tuning) 进行微调。利用上下文图像和相机运动指令生成空间一致的新视图。Astra-VL强化学习的代理策略策略模型从 Qwen3-VL-8B 初始化。决定何时调用模拟器、选择相机运动指令并评估返回的观测结果。交互格式I^t1W(I1:t,rt,ut)\hat{I}_{t1} \mathcal{W}(\mathcal{I}_{1:t}, r_t, u_t)I^t1​W(I1:t​,rt​,ut​)其中I1:t\mathcal{I}_{1:t}I1:t​是上下文图像rtr_trt​是参考图像索引utu_tut​是自然语言相机运动指令。2. 方法论与训练细节2.1 视图一致性调优 (View Consistency Tuning)数据使用来自室内场景ScanNet, Matterport3D, ARKitScenes, DL3DV的544k个经过质量验证的 SFT 样本。目标确保生成的视图遵循请求的运动并保留场景布局。2.2 Astra-VL 的两阶段强化学习 (RL) 课程为了平衡直接回答与使用模拟器的能力设计了以下奖励机制第一阶段探索与工具获取防止策略崩溃为直接回答并教有效交互ri(1)riemλfmtrifmtλusemin⁡(nitool,c)r_i^{(1)} r_i^{\text{em}} \lambda_{\text{fmt}} r_i^{\text{fmt}} \lambda_{\text{use}} \min(n_i^{\text{tool}}, c)ri(1)​riem​λfmt​rifmt​λuse​min(nitool​,c)第二阶段选择性具象化仅在模拟器能提升直接回答效果时才鼓励使用Δiei−egdirect\Delta_i e_i - e^{\text{direct}}_gΔi​ei​−egdirect​ri(2)riemλfmtrifmtλusemin⁡(nitool,c)αmax⁡(0,Δi)−βmax⁡(0,−Δi)r_i^{(2)} r_i^{\text{em}} \lambda_{\text{fmt}} r_i^{\text{fmt}} \lambda_{\text{use}} \min(n_i^{\text{tool}}, c) \alpha \max(0, \Delta_i) - \beta \max(0, -\Delta_i)ri(2)​riem​λfmt​rifmt​λuse​min(nitool​,c)αmax(0,Δi​)−βmax(0,−Δi​)RL 参数λfmt0.5\lambda_{\text{fmt}} 0.5λfmt​0.5α0.1\alpha 0.1α0.1β0.03\beta 0.03β0.03c1c 1c1λuse0.02\lambda_{\text{use}} 0.02λuse​0.02RL 数据构建使用高温采样temp1.5跨空间 QA 类别保留硬样本最终得到6000个训练样本。3. 实验评估与结果3.1 基准测试结果模型/指标MMSI-BenchMindCubeQwen3-VL-8B (直接回答)29.836.8Astra-VL (代理式)38.8(9.0)42.7(5.9)Gemini-3-Flash Astra-WM49.5(4.4)-Gemini-3-Flash Bagel45.8-工作流程模式对比强制工具使用改进了基于相机的关系如 Cam.–Cam. ↑ 至 47.9但由于噪声削弱了对象/区域中心关系。代理式工具使用通过自适应决定何时具象化、减少不必要的工具调用并正确评估证据实现了整体最佳性能。3.2 消融实验与洞察模拟器质量通用图像生成不足以保证空间推理空间一致性姿态和内容至关重要。Astra-WM 在姿态一致性和内容保留方面显著优于现成的 Bagel。策略选择性访问模拟器本身可能因模型不知道何时/如何使用而降低性能。两阶段 RL 课程平衡了探索与选择性具象化。失败模式错误源于非 informative 动作、空间不一致的模拟器输出或错误评估。策略必须区分原始图像与生成的图像。4. 局限性奖励稀疏性精确匹配差异是稀疏的可能无法捕获部分有用的观测结果。策略不稳定性若调优不当策略要么崩溃为直接回答要么过度使用模拟器。未来方向更强的路由机制、优化期望信息增益、在工具观测后添加验证器式推理、构建偏好数据以区分有用/有害的工具调用。

相关新闻