通过世界模拟器进行具象化视觉空间推理 (Astra)-尧图网站设计

通过世界模拟器进行具象化视觉空间推理 (Astra)论文来源: arXiv:2606.06476 |主题: 空间推理、世界模拟器、强化学习、具身智能、思维链摘要与核心贡献当前视觉语言模型VLMs虽然在视觉推理方面表现强劲但在空间推理能力上仍局限于观察到的图像和面向文本的链式思维。本文提出Astra框架将空间推理转化为交互式证据获取过程通过自然语言相机运动指令主动查询世界模拟器World Simulator。核心贡献思考与具象化 (Thinking with Imagination)通过世界模拟器将空间推理转化为交互式过程实现跨视角一致性与推理未观察布局的能力。Astra-WM (世界模拟器)基于 Bagel 的模拟器通过视图一致性调优生成空间一致的新视角。Astra-VL (代理策略)基于强化学习的策略模型从 Qwen3-VL-8B 初始化决定何时调用模拟器、选择相机运动并评估返回的观测结果。RL 数据与策略采用两阶段 RL 课程训练通过硬样本保留策略构建了 6k 的高质量训练样本。1. 核心架构与组件组件描述Astra-WM基于 Bagel 的模拟器通过视图一致性调优 (View Consistency Tuning) 进行微调。利用上下文图像和相机运动指令生成空间一致的新视图。Astra-VL强化学习的代理策略策略模型从 Qwen3-VL-8B 初始化。决定何时调用模拟器、选择相机运动指令并评估返回的观测结果。交互格式I^t1W(I1:t,rt,ut)\hat{I}_{t1} \mathcal{W}(\mathcal{I}_{1:t}, r_t, u_t)I^t1W(I1:t,rt,ut)其中I1:t\mathcal{I}_{1:t}I1:t是上下文图像rtr_trt是参考图像索引utu_tut是自然语言相机运动指令。2. 方法论与训练细节2.1 视图一致性调优 (View Consistency Tuning)数据使用来自室内场景ScanNet, Matterport3D, ARKitScenes, DL3DV的544k个经过质量验证的 SFT 样本。目标确保生成的视图遵循请求的运动并保留场景布局。2.2 Astra-VL 的两阶段强化学习 (RL) 课程为了平衡直接回答与使用模拟器的能力设计了以下奖励机制第一阶段探索与工具获取防止策略崩溃为直接回答并教有效交互ri(1)riemλfmtrifmtλusemin⁡(nitool,c)r_i^{(1)} r_i^{\text{em}} \lambda_{\text{fmt}} r_i^{\text{fmt}} \lambda_{\text{use}} \min(n_i^{\text{tool}}, c)ri(1)riemλfmtrifmtλusemin(nitool,c)第二阶段选择性具象化仅在模拟器能提升直接回答效果时才鼓励使用Δiei−egdirect\Delta_i e_i - e^{\text{direct}}_gΔiei−egdirectri(2)riemλfmtrifmtλusemin⁡(nitool,c)αmax⁡(0,Δi)−βmax⁡(0,−Δi)r_i^{(2)} r_i^{\text{em}} \lambda_{\text{fmt}} r_i^{\text{fmt}} \lambda_{\text{use}} \min(n_i^{\text{tool}}, c) \alpha \max(0, \Delta_i) - \beta \max(0, -\Delta_i)ri(2)riemλfmtrifmtλusemin(nitool,c)αmax(0,Δi)−βmax(0,−Δi)RL 参数λfmt0.5\lambda_{\text{fmt}} 0.5λfmt0.5α0.1\alpha 0.1α0.1β0.03\beta 0.03β0.03c1c 1c1λuse0.02\lambda_{\text{use}} 0.02λuse0.02RL 数据构建使用高温采样temp1.5跨空间 QA 类别保留硬样本最终得到6000个训练样本。3. 实验评估与结果3.1 基准测试结果模型/指标MMSI-BenchMindCubeQwen3-VL-8B (直接回答)29.836.8Astra-VL (代理式)38.8(9.0)42.7(5.9)Gemini-3-Flash Astra-WM49.5(4.4)-Gemini-3-Flash Bagel45.8-工作流程模式对比强制工具使用改进了基于相机的关系如 Cam.–Cam. ↑ 至 47.9但由于噪声削弱了对象/区域中心关系。代理式工具使用通过自适应决定何时具象化、减少不必要的工具调用并正确评估证据实现了整体最佳性能。3.2 消融实验与洞察模拟器质量通用图像生成不足以保证空间推理空间一致性姿态和内容至关重要。Astra-WM 在姿态一致性和内容保留方面显著优于现成的 Bagel。策略选择性访问模拟器本身可能因模型不知道何时/如何使用而降低性能。两阶段 RL 课程平衡了探索与选择性具象化。失败模式错误源于非 informative 动作、空间不一致的模拟器输出或错误评估。策略必须区分原始图像与生成的图像。4. 局限性奖励稀疏性精确匹配差异是稀疏的可能无法捕获部分有用的观测结果。策略不稳定性若调优不当策略要么崩溃为直接回答要么过度使用模拟器。未来方向更强的路由机制、优化期望信息增益、在工具观测后添加验证器式推理、构建偏好数据以区分有用/有害的工具调用。

通过世界模拟器进行具象化视觉空间推理 (Astra)

相关新闻

别再只会用双线性插值了！PyTorch中5种上采样方法实战对比（附代码）

从零到一：在Gazebo仿真中完成机械臂手眼标定（基于ROS Noetic + easy_handeye + aruco）

RimSort终极指南：3分钟彻底解决环世界MOD加载混乱的完整教程

SpringBoot项目升级Swagger3.0后，swagger-ui.html 404？别慌，5分钟搞定新版访问路径和依赖配置

工控必看：温度传感器快速选型指南

ESP32断电重启后，如何用NVS保存Wi-Fi密码和设备配置？保姆级实战教程

手把手教你给嵌入式Linux板子装上5G“翅膀”：移远RM500Q模块USB驱动移植全记录

Hermes Trajectory日志工程：让每一次执行都成为进化数据

主数据标准还在靠人“手搓“？AI Agent来了，周期压缩60%

Windows 11系统优化神器：Win11Debloat如何让你的电脑快如闪电？

Sunshine游戏串流：终极指南搭建你的私人云游戏平台

Cursor Free VIP：重新定义AI编程工具授权的智能解决方案

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源