分层实验智能体(HExA):基于上下文自演化物理推理智能体框架

发布时间:2026/7/1 17:58:14

分层实验智能体(HExA):基于上下文自演化物理推理智能体框架 分层实验智能体HExA基于上下文自演化物理推理智能体框架论文原链接https://arxiv.org/html/2606.29315v1摘要大语言模型LLM智能体已广泛用于规划、代码生成等任务但主流方案依赖预训练参数知识、离线检索与固定提示词面对全新未知物理环境时存在严重缺陷仅依靠固有物理知识无法完成长时序、多约束实验推理。本文提出分层实验智能体 HExAHierarchical Experimentalist Agents一套纯上下文、无需模型微调的自改进强化学习框架。核心三大能力自主设计、迭代优化针对特定问题的物理仿真实验从交互轨迹中分层提炼可跨任务复用的物理技能库持续自更新融合实验观测结果完成推理与决策。配套推出Interphyre仿真评测基准基于PHYRE 2D物理引擎提供完整工具调用、干预回溯API专门评测智能体主动实验能力。实验结果在最难Catapult弹弓关卡基线Claude Sonnet 4.6仅2%通过率HExA提升至77%仅依靠简单关卡迁移技能、不接触目标关卡数据时仍可达44%成功率Qwen等开源模型均有稳定提升。HExA无需梯度更新、离线数据集与人工标注适配任意黑盒大模型。1 引言1.1 LLM智能体现有范式缺陷当前主流LLM推理范式依赖预训练时学习的海量静态知识在以下两类场景完全失效全新未知环境动力学、约束规则训练集中从未出现无法仅凭记忆推理抽象知识落地模型掌握通用物理定律但无法针对定制场景完成精确实验、调试、试错。单纯思维链CoT、检索增强只能复用已有信息无法通过主动探索获取新知识。人类科学家依靠主动实验、假设验证、归纳复用完成未知领域探索而现有智能体缺少这套闭环。1.2 核心研究问题如何让LLM智能体仅通过上下文交互借助主动实验、技能沉淀高效处理全新复杂物理任务且技能可跨关卡迁移1.3 本文核心贡献定义实验导向上下文强化学习范式将主动假设、仿真实验、经验提炼作为核心流程设计Interphyre 2D物理评测基准配套完整工具API、关卡数据集提出HExA分层实验智能体框架Actor实验智能体Evolver提炼智能体双循环全程无模型权重更新自动构建分层可复用技能库大规模评测验证在Interphyre八大物理关卡测试闭源Claude、开源Qwen/GPT-OSS系列模型HExA相比ReAct、Reflexion基线大幅提升通过率且技能支持零样本跨关卡迁移消融实验证明核心模块价值技能奖励权重、技能更新策略、离线预热机制均对性能有显著增益同等交互样本下优于GRPO梯度微调方案。1.4 整体框架示意图说明基线ReAct每个种子关卡独立交互无跨样本经验留存每次从零试错HExA单关卡自演化批量种子完成实验后Evolver提炼技能库注入后续提示词持续迭代优化探索策略跨关卡技能迁移多个简单关卡技能库融合无需在困难关卡做任何实验直接用于零样本求解。2 相关工作2.1 工具增强推理智能体ReAct/ReflexionReAct构建“思考-动作-观测”单轮循环但无跨样本长期记忆Reflexion增加失败反思文本但不会结构化沉淀可复用技能每次任务独立推理重复大量无效试错。2.2 上下文强化学习ICRL传统ICRL依赖大量离线轨迹预训练或仅记录原始交互文本未做结构化知识压缩HExA创新将轨迹提炼为标准化技能错误案例知识库大幅降低上下文长度提升复用效率。2.3 技能自动生成领域AutoSkill、SkillX等方法依赖外部奖励、真值标签或微调模型HExA完全依靠仿真环境交互反馈纯上下文完成分层技能提取兼容API闭源模型。2.4 物理推理评测基准PHYRE、CRAFT、PhysBench仅提供静态场景问答缺少主动干预、分步仿真、因果回溯接口Interphyre新增快照回滚、分步模拟、碰撞日志、自定义几何分析工具专门评测实验探索能力。2.5 梯度类强化学习GRPO/DPO需要GPU、大量交互样本做参数更新小样本场景收敛慢HExA无需权重改动交互经验立刻生效适合低资源、快速迭代场景。3 HExA框架完整设计3.1 整体双智能体循环架构HExA由两大LLM模块组成全程不更新模型权重仅通过文本上下文传递经验Actor执行智能体读取技能库关卡描述调用仿真工具做实验生成完整交互轨迹并打分Evolver提炼智能体批量读取成功/失败轨迹对比高低分案例提炼通用策略技能与典型错误检索器Retriever按奖励分数筛选最优技能注入Actor提示词指导下一轮实验。3.2 数学形式化定义3.2.1 任务定义ℓ\ellℓ代表一类物理关卡sjs_jsj​为随机种子对应场景布局每个episode最多T次工具调用yj(π)y_j(\pi)yj​(π)代表该种子是否仿真达成目标1成功/0失败。交互工具集合F\mathcal{F}F提供场景查询、分步/完整仿真、几何分析接口。3.2.2 轨迹奖励函数区分效率成败r(\tau) \begin{cases} 1.0 成功且≤3轮 \\ 0.75 成功且≤7轮 \\ 0.50 成功且≤15轮 \\ 0.25 成功且用尽T轮 \\ -0.50 失败交互≥10次充分探索有学习价值 \\ -0.75 失败交互10次过早放弃价值低 \end{cases}奖励区分充分探索的失败与浅尝辄止的失败让Evolver优先提炼有效实验经验。3.2.3 技能库更新规则每轮完成x个种子交互后Evolver执行两步蒸馏对比提炼正向技能高分成功轨迹对比低分轨迹总结物理机制、适用场景、标准操作每条技能包含标题、原理、使用条件、示例失败提炼错误模板从失败轨迹提取错误描述、根因、修正方案同时提取“局部正确但整体失败”的部分技能。技能附带归一化奖励分数rkclamp⁡(rˉsrc12, 0.1, 1.0)r_{k}\operatorname{clamp}\left(\frac{\bar{r}_{\mathrm{src}}1}{2},\,0.1,\,1.0\right)rk​clamp(2rˉsrc​1​,0.1,1.0)rˉsrc\bar{r}_{\mathrm{src}}rˉsrc​该技能对应所有轨迹平均奖励分数越高检索优先级越高。3.2 完整HExA算法伪代码输入Actor模型、Evolver模型、关卡ℓ、每轮种子数x、总迭代轮数R、检索最大技能M/错误N 1. 初始化技能库K0 离线预热(Off/Off2On)无技能库Actor跑N0条轨迹蒸馏生成初始库 纯在线(Online)K0为空 2. 循环 n1 到 R 1. 检索器从K_{n-1}取出前M高分技能、N高频错误组成上下文G_n 2. 循环当前批次所有种子Actor携带G_n生成交互轨迹τ计算单条奖励r(τ) 3. 收集本轮全部轨迹T^(n)送入Evolver 4. 更新技能库K_n - Evolving模式旧库新轨迹融合、合并、剪枝生成新库 - Iterative模式仅用本轮轨迹完全重建库 - Offline模式库冻结不更新 3. 迭代结束输出最终技能库K_R3.3 三种初始化两种更新策略组合5种变体Offline离线预热生成库全程冻结不更新Off2On-Evolving最优配置离线预热初始化每轮融合新旧技能Off2On-Iterative离线预热每轮仅用新轨迹重建Online-Evolving从零起步每轮融合Online-Iterative从零起步每轮完全重建。实验证明Off2On-Evolving在所有关卡通过率、迭代效率最优。3.4 跨关卡技能迁移机制流程输入多个简单关卡成熟技能库Evolver剥离关卡专属坐标、物体名称保留通用物理原理结合目标关卡物体、约束重写技能适用条件生成全新目标技能库直接用于目标关卡Actor无需在目标关卡跑任何实验。例Down to Earth、Two Body、Pass the Parcel三关技能融合后Catapult弹弓关卡基线8%→44%。3.5 Interphyre仿真工具API核心工具全集共享通用工具全部关卡可用get_level_state()获取场景所有物体坐标、半径、动态属性、胜利条件simulate_action(x,y,radius)放置红球完整仿真返回成败物体最终位置simulate_part(x,y,radius,stop_step)仿真至指定步数暂停查看中间状态get_contact_log()获取碰撞时序日志finish(x,y,radius)提交最终红球位置判定胜负。关卡专属几何分析工具Down to Earthcompute_gap_analysis()平台缝隙宽度分析Two Bodycompute_relative_positions()两球相对距离、碰撞预判Catapult核心实验关卡describe_scene_geometry()完整场景几何清单simulate_with_trace(x,y,radius,object_names,stop_step)多物体运动轨迹trace_green_ball(x,y,radius)仅追踪目标绿球predict_first_contact(x,y,radius)预判首次碰撞物体节省仿真开销Falling Into Placecompute_intercept_setup()拦截时序计算Basket Casecompute_basket_analysis()篮筐偏移分析Pass the Parcelget_ramp_center()斜坡几何Cliffhanger悬崖倾覆几何Tipping Point杠杆倾倒临界计算。4 实验设计与结果分析4.1 实验环境评测基准Interphyre八大2D物理关卡简单6关高难2关Pass the Parcel、Catapult测试模型Claude Sonnet 4.6、Qwen-2.5 3B/7B、GPT-OSS 20B/120B对比基线Direct单轮无工具、ReAct、Reflexion、GRPO梯度微调单种子最大交互轮次25轮评测指标关卡成功率、平均交互轮次越少效率越高。4.2 基线模型原始表现无技能增强关卡随机策略Q-7BQ-14BO-20BO-120BClaude SonnetCliffhanger000000Tipping Point303820Basket Case40214139Down to Earth818016314Two Body1441613168Falling Into Place18132923Pass the Parcel000030Catapult000002高难两关绝大部分模型基线接近0是验证HExA效果核心场景。4.3 单关卡自演化实验结果4.3.1 Catapult弹弓关卡最难关卡ReAct基线8%成功率平均22.9轮Reflexion21.3%HExA无奖励技能50.7%HExA带奖励最优67.3%平均仅14.4轮交互减少37%。4. 开源Qwen模型提升效果关卡基线ReActHExA提升后Down to Earth Q3B8% → 24%Down to Earth Q7B62% →72%Two Body Q3B6%→14%Two Body Q7B18%→34%Catapult GPT-OSS120B0%→54%4.4 跨关卡零样本迁移实验仅用简单关卡技能、不跑目标关卡实验Catapult目标源DTETBPPTP基线8%→44%提升36个百分点Falling Into Place源DTE20%→32%Two Body源DTE18%→34%证明提炼的是通用物理原理非关卡专属坐标技巧。4.5 消融实验关键结论奖励标签至关重要去掉奖励权重Q7B两关平均下降8~10%成功率更新策略Evolving融合优于Iterative重建不会丢失前期有效技能离线预热初始化可大幅降低前期试错轮次同等交互样本下HExA优于GRPO梯度微调小样本场景梯度更新收敛慢。4.6 典型案例Catapult种子45完整对比ReAct25轮全部失败反复微调同一块区域红球坐标不懂更换发射支点HExA读取演化技能库识别x0.5是标准发射点、天花板撞击需左移至x0.3仅6轮成功红球参数(0.3,0.9,1.5)技能库关键知识默认发射x≈0.5r1.5无法提升射程仅改变发射角度天花板碰撞不要加大半径横向偏移x即可改变弹道避免在同一x区间反复微调。5 讨论、局限与未来工作5.1 现有局限评测仅局限2D物理仿真未拓展机械、化学、生物等科学实验场景技能质量受基础LLM推理能力限制仅二元成败奖励复杂多目标工业实验场景适配不足每轮Evolver推理存在额外上下文开销大规模迭代速度受限。5.2 未来研究方向拓展多领域实验基准数值仿真、化学合成、机器人操控优化技能压缩算法降低提示词长度开销HExA梯度RL混合方案先用上下文技能预热再微调模型多智能体协同实验、跨领域通用技能迁移。6 结论本文提出HExA分层实验智能体纯上下文、无需微调即可让LLM通过自主仿真实验沉淀分层可复用技能。配套Interphyre物理仿真基准提供完整实验工具链。在最难物理关卡上HExA将模型成功率从2%提升至77%开源模型均获得稳定增益且技能可零样本跨关卡复用。相比梯度强化学习HExA在少量交互样本下收敛速度更快无需GPU训练兼容所有闭源/开源LLM为实验型AI智能体提供轻量化自改进新思路。附录精简核心内容附录A HExA完整数学与算法细节包含完整循环伪代码、奖励函数、技能打分公式、五种变体超参配置。附录B Interphyre全部工具签名所有关卡查询、仿真、几何分析工具入参、返回格式完整清单可直接复现实验脚本。附录C 基线完整实现ReAct标准Thought-Action-Observation单轮循环25轮上限Reflexion最多两轮失败生成反思文本注入第二轮提示Direct无任何工具单次输出答案GRPOQwen3B微调完整超参表。附录E Catapult完整实验轨迹ReAct失败25轮完整思考工具调用日志HExA进化14轮后的完整技能库文本HExA成功6轮完整交互记录可直接复现实验。附录H 各关卡标准系统提示词Down to Earth、Two Body、Catapult等8关完整Prompt复现实验直接复制使用。附录I Evolver提炼提示模板第一轮成功/失败对比提取正向技能第二轮从失败轨迹提取错误、局部有效技能跨关卡技能融合专用提示词。

相关新闻