06-02 · LLM 最新论文速览

发布时间:2026/6/3 1:02:06

06-02 · LLM 最新论文速览 今日候选池105篇硬过滤 LLM 打分后通过评估18篇精选 Top-10另列 8 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. SimSD: Simple Speculative Decoding in Diffusion Language Models评分9.1·方向cs.CL · Computation and Language ·arxiv2606.02544· PDF SimSD 为扩散语言模型设计 plug-and-play 掩码策略使其兼容 token 级投机解码实现推理加速扩散语言模型投机解码推理加速摘要扩散大语言模型dLLMs通过并行或分块解码实现快速推理但其掩码语言建模范式与自回归模型中高效的投机解码speculative decoding技术不兼容——dLLMs依赖双向注意力和mask token有效上下文随去噪步骤变化无法直接进行token级投机验证。本文提出SimSD一种简单有效的dLLM投机解码算法通过即插即用的掩码策略引入草稿模型预测的参考token并设计注意力掩码调控其与当前步token的交互使dLLM能在单次前向传播中为草稿token计算有效logits恢复类似因果掩码的验证能力同时保留并行解码优势。该方法无需训练可灵活与其他加速技术结合。评分细项rel 10 / nov 8 / prac 8 / author 72. Regime-Adaptive Continual Learning for Portfolio Management评分8.1·方向q-fin.PM · Portfolio Management ·arxiv2606.00143· PDF 提出 ReCAP 框架用自适应 regime 检测分割市场状态并构建策略库通过 regime-gate 持续学习实现组合管理快速适应。量化交易组合管理持续学习regime切换摘要金融市场具有非平稳性频繁的regime转换使传统投资组合管理方法失效。滚动窗口重训练计算成本高简单在线微调知识利用不足。本文提出ReCAP框架将持续学习Continual Learning融入投资组合管理通过自适应regime检测模块将历史数据分割为变长regime学习对应的策略向量并构建策略库在持续交易中regime-gate模块根据当前市场状态自适应组合策略库中的向量实现对新regime的快速适应且仅更新gate和当前regime策略向量以保留已有知识。在五个真实数据集上的实验表明ReCAP在长期投资收益和快速适应方面持续优于主流基线方法。评分细项rel 9 / nov 7 / prac 8 / author 53. Multi-Agent Computer Use评分7.7·方向cs.MA · Multiagent Systems ·arxiv2606.01533· PDF 提出多 agent 计算机操作框架 MACUmanager 将任务分解为 DAG 并行调度子 agent持续修订节点以应对部分可观测环境。多agent计算机操作DAG调度CMU摘要当前计算机使用代理CUA多以单一串行方式部署难以应对需要任务分解、并行执行和动态重规划的复杂长时域任务。本文提出多代理计算机使用MACU系统管理模型将任务分解为有向无环图DAG编码子任务间的依赖关系每轮迭代中管理者向就绪前沿的节点派发并行子代理执行并根据反馈持续修订 DAG增删或改写节点。该设计将部分可观测环境视为核心挑战通过管理者和 DAG 结构保留并传递下游代理可能无法重新观测的信息。实验表明MACU 在桌面OSWorld和网页导航Online-Mind2Web、WebTailBench、Odysseys基准上较强单代理基线提升 3.4–25.5%具有更优的测试时计算扩展性并能解决单代理易陷入僵局的长时域任务。评分细项rel 8 / nov 7 / prac 8 / author 74. SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2606.02355· PDF SIRI 三阶段框架GiGPO 热身 → 自挖掘并验证技能 → 将有益技能蒸馏进 plain policy推理时无需外部技能库WebShop 上 Qwen2.5-7B 提升至 0.813。LLM agent强化学习技能内化后训练摘要长时域 LLM 代理可受益于可复用技能但现有技能方法常依赖外部技能生成器或推理时持久检索增加工程复杂度与延迟。本文提出 SIRI 框架通过三阶段实现技能的发现、验证与内化且无需外部技能生成器或推理时技能库。首先用 GiGPO 热身获取基本交互能力并收集无技能成功轨迹然后进行自挖掘从自身成功轨迹中总结紧凑技能并通过配对实验验证有效性最后利用轨迹级效用和动作级优势将有益的技能引导动作蒸馏进原始策略。推理时仅使用原始 prompt。在 ALFWorld 和 WebShop 上Qwen2.5-7B-InstructSIRI 将 GiGPO 分别从 0.908 提升至 0.930、从 0.728 提升至 0.813超越多种基线且自挖掘策略可达到接近闭源大模型蒸馏的效果。评分细项rel 8.5 / nov 7.5 / prac 8.0 / author 7.05. Forget Attention: Importance-Aware Attention Is All You Need评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2606.02332· PDF SISA 将 SSM 派生的 importance 信号直接注入 attention score 实现 score-level 融合无需循环状态或自定义 kernelNIAH 收敛速度比 Transformer 快 7×。注意力机制SSM融合新型架构摘要现有混合语言模型如 Jamba、Hymba将注意力机制与状态空间模型 (SSM) 分置于独立模块或注意力头中二者在注意力计算时互不通信。本文提出 SISASSM-Informed Softmax Attention将 SSM 导出的重要性信号直接注入注意力分数内部通过扩增 Q/K 向量在单次标准 SDPA 调用中完成无需循环状态或自定义算子。在 152M/5B tokens 规模下SISA 在 LAMBADA-greedy 上达 17.3%Transformer 13.9%Mamba-3 15.5%NIAH 从 1K 步即达 100%收敛速度为 Transformer 的 7 倍。该工作定义了 SSM-注意力混合的第三条设计轴——分数级融合。评分细项rel 8.0 / nov 8.0 / prac 7.0 / author 5.06. ResMerge: Residual-based Spectral Merging of Large Language Models评分7.5·方向cs.CL · Computation and Language ·arxiv2606.02252· PDF 发现 RL task vector 的主奇异方向与残差分量具有不同合并特性提出 ResMerge 用球面残差共识做 RL 专家免训练合并。模型合并RL后训练谱分解摘要模型合并可免训练地整合多个专家模型但对强化学习 (RL) 微调后的专家仍颇具挑战。现有谱合并方法假设主奇异方向携带核心任务信号低能残差可被压缩以减少冲突。本文发现该假设对 RL 任务向量不成立将任务向量分解为谱头与残差后两部分均能独立恢复大量行为知识但谱头集中且易发生跨专家冲突残差则更分散、聚合更稳定。据此提出 ResMerge先通过球面残差共识自适应构建稳定的残差骨干再以正向跨专家一致性门控的轻量头校正模块补回谱头信息。实验表明 ResMerge 在多组 RL 专家上优于代表性任务向量与谱合并基线。评分细项rel 8 / nov 7 / prac 7 / author 67. MOC: Multi-Order Communication in LLM-based Multi-Agent Systems评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2606.02359· PDF 提出多阶通信 MOC构建多跳结构化证据流并用语义-拓扑合并算法压缩消息降低多 agent 通信开销同时提升任务性能代码开源。多agent通信多跳依赖开源摘要基于大语言模型LLM的多智能体系统研究大多聚焦于协调拓扑优化却忽视了一个同等关键的问题如何高效传递和优化智能体间的消息现有通信方案通常直接拼接一阶邻居回复导致证据感受野受限关键信息在多跳路径中被稀释。本文提出多阶通信方案MOC通过重构智能体间通信以捕获多跳依赖并引入结构化消息整合策略保证效率。具体而言MOC形式化通信机制以构建结构化多阶证据流并设计语义-拓扑合并算法在token约束下优化语义保真度。在六个数据集和不同参数规模的LLM上的实验表明MOC持续提升任务性能并降低通信开销。评分细项rel 8.5 / nov 7.0 / prac 7.5 / author 6.08. Unified Context Evolution for LLM Agents评分7.4·方向cs.CL · Computation and Language ·arxiv2606.02304· PDF UCE 将 agent 经验外化为四类可进化上下文单元Memory/Strategy/Workflow/Skill按使用反馈打分裁剪并调度生成预算ALFWorld 成功率提至 96.3%。agentic workflow经验复用无梯度学习摘要基于LLM的智能体能结合推理与环境反馈解决多步交互任务但每次执行都从固定上下文开始任务结束后所获策略即丢失。现有方法要么局限于当前任务学习要么将所有经验混入单一无类型存储缺乏知识分类、质量追踪和短板补充机制。本文提出统一上下文演化框架UCE将智能体经验外化为一个由类型化可演化上下文单元ECU组成的动态库。UCE将经验分解为记忆、策略、工作流和技能四种互补类型各自从轨迹中按特定条件生成在决策时检索通过反复使用结果评分失效时剪枝。调度模块将生成预算分配给库中最薄弱的类型。实验中UCE将ALFWorld成功率从75.4%提升至96.3%WebShop得分从45.1%提升至61.3%且积累的库可迁移至其他模型无需重训。评分细项rel 8.0 / nov 7.0 / prac 7.5 / author 5.09. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2606.02373· PDF 将搜索 agent 的状态管理外置到环境侧 harnessRL 仅优化语义决策20B 模型在 8 个检索基准上平均 recall 达 0.730。多agent强化学习搜索agent摘要搜索智能体通常被训练为基于不断增长的上下文的策略模型需同时做出搜索决策并记忆已见内容、约束状态等信息。本文认为这种范式将过多的状态管理负担加在策略网络上强化学习被迫同时优化语义搜索决策和可由环境可靠维护的记录工作。作者提出 Harness-1一个 20B 参数的搜索子智能体在有状态搜索harness环境中通过强化学习训练。该 harness 在环境侧维护工作记忆候选池、重要性标签集合、证据链接、验证记录、压缩去重观察及预算感知的上下文渲染策略仅负责语义决策搜索什么、保留/丢弃哪些文档、验证什么、何时停止。在覆盖网页、金融、专利和多跳问答的八个检索基准上Harness-1 平均 curated recall 达 0.730超越最强开源搜索子智能体 11.4 个百分点并在未见过的迁移基准上表现尤为突出表明基于显式搜索状态的强化学习能产生跨领域泛化的检索行为。评分细项rel 7.5 / nov 7.0 / prac 7.5 / author 7.010. AdaCodec: A Predictive Visual Code for Video MLLMs评分7.0·方向cs.CV · Computer Vision ·arxiv2606.02569· PDF AdaCodec 借鉴视频编码 P 帧思想仅在场景变化大时发送全帧 token否则用紧凑运动/残差 token 表示帧间差异将视频 MLLM 的 token 量压至 1/7。视频MLLMtoken压缩推理加速摘要视频具有时间冗余性相邻帧通常共享大部分对象、背景和布局。然而现有视频多模态大语言模型video MLLMs通常将每帧独立编码为 RGB 图像导致视觉 token 大量重复已有内容。本文提出 AdaCodec——一种预测性视觉编码接口仅当场景无法从先前上下文良好预测时才发送完整参考帧否则以紧凑的 P-token 编码帧间变化运动与预测残差。在全部 11 个基准上AdaCodec 在相同视觉 token 预算下优于 Qwen3-VL-8B 逐帧 RGB 基线即使仅用 1/7 预算32k token也在所有长视频基准上超越 224k 基线在五个通用视频基准上提升平均分数的同时将首 token 生成时间从 9.26s 大幅降至 1.62s。评分细项rel 7 / nov 7 / prac 7 / author 6 速览 · 其他通过评估的工作8 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.AI7.0COMAP: Co-Evolving World Models and Agent Policies for LLM Agents· COMAP 让文本世界模型与 agent 策略闭环共演化世界模型预测未来状态反馈agent 做 future-aware reflection再用 self-distillation 更新世界模型。cs.MA7.0Dynamic Trust-Aware Sparse Communication Topology for LLM-Based Multi-Agent Consensus· 提出 DySCo 动态稀疏共识机制基于信任值与答案分歧度裁剪多 agent 通信边将 token 开销从 O(n²) 降至预算约束内。cs.MA6.9MetaForge: A Self-Evolving Multimodal Agent that Retrieves, Adapts, and Forges Tools On Demand· MetaForge 将 agent 工具使用分解为 judge-retrieve-adapt-forge 闭环通过 RL 联合优化调用必要性与新技能锻造复用率。cs.MA6.5Scaling Behavior of Single LLM-Driven Multi-Agent Systems· 用 SIMAS 框架实验揭示同构多 agent 系统性能随 agent 数量呈递减回报曲线最优数量取决于任务类型与模型能力。cs.MA6.3FinCom: A Financial Multi-Agent Demo with Disagree-or-Commit Deliberation· FinCom 用 Disagree-or-Commit 协议强制多 agent 金融委员会在达成一致前进行显式批判缓解谄媚式过早收敛。cs.CL6.2From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression· SubFit 在子模块Attn/FFN粒度做非连续选择并用轻量残差旁路替换改善后训练 LLM 压缩的困惑度-精度权衡cs.MA6.2LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies· 对比 12 种多 agent LLM 协作拓扑用于软件架构设计发现结构化对抗式 prompt 和跨模型审查效果最优并行合并最差。q-fin.TR6.1Machine Learning-Based Bitcoin Trading Under Transaction Costs: Evidence From Walk-Forward Forecasting· 用 XGBoost/LSTM/iTransformer 对 BTC 小时收益做 walk-forward 预测引入成本感知过滤器恢复扣费后盈利能力数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考

相关新闻