
今日候选池86篇硬过滤 LLM 打分后通过评估14篇精选 Top-10另列 4 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. You Only Index Once: Cross-Layer Sparse Attention with Shared Routing评分9.0·方向cs.CL · Computation and Language ·arxiv2606.06467· PDF CLSA基于 YOCO KV 共享架构跨层复用 token 级 top-k 路由索引同时加速 prefill、KV 存储与长上下文解码。KV cache稀疏注意力长上下文推理加速摘要长上下文LLM推理的解码效率是核心瓶颈尤其在需要长思维链的推理场景中。现有稀疏注意力方法面临效率与质量的权衡块稀疏方法加速明显但质量下降token稀疏方法精度更高但因全缓存top-k路由开销大而端到端加速有限。本文提出跨层稀疏注意力CLSA基于YOCO等KV共享架构核心思想是不仅跨层共享KV cache还共享路由索引——单个索引器计算一次token级top-k选择后跨层复用从而在保持细粒度选择性的同时摊销路由开销。该架构同时优化了预填充、KV cache存储和长上下文解码三大推理瓶颈。实验表明CLSA在短/长上下文基准上均表现优异128K上下文下实现7.6倍解码加速和17.1倍整体吞吐提升。评分细项rel 9.5 / nov 8.0 / prac 8.5 / author 8.52. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents评分8.6·方向cs.AI · Artificial Intelligence ·arxiv2606.06453· PDF Vortex 提供 Python 前端 页粒度张量抽象的稀疏注意力编程系统集成 serving stack 实现最高 3.46× 吞吐提升推理加速稀疏注意力serving系统开源摘要随着大语言模型生成长度不断增长稀疏注意力在推理服务中愈发重要但新算法的部署与评估工程成本极高制约了研究迭代速度。Vortex 提出一套面向稀疏注意力的可编程服务系统前端提供嵌入 Python 的领域语言与基于页的张量抽象支持灵活表达多种稀疏注意力算法后端与现代 LLM 服务栈深度集成将理论效率增益转化为实际吞吐提升。借助 VortexAI agent 可自动生成并迭代优化稀疏注意力方案最优方案在保持精度的同时吞吐量达到全注意力的 3.46 倍。系统还扩展至 MLA 架构的 GLM-4.7-Flash4.7 倍加速及 229B 参数的 MiniMax-M2.71.37 倍加速B200 GPU。评分细项rel 9 / nov 8 / prac 9 / author 73. RedKnot: Efficient Long-Context LLM Serving with Head-Aware KV Reuse and SegPagedAttention评分7.9·方向cs.AI · Artificial Intelligence ·arxiv2606.06256· PDF 按 KV head 功能角色做异构管理结合 SegPagedAttention 实现长上下文 LLM 推理的 KV cache 压缩与热冷分离。KV cache压缩长上下文推理推理加速摘要随着大语言模型LLM输入长度持续增长KV cache 成为 GPU 内存、并发服务和分布式扩展的核心瓶颈。现有系统将 KV cache 视为同质的 token 级内存块采用统一策略管理所有注意力头。作者观察到不同 KV head 具有不同的功能角色、注意力距离和运行时重要性并非每个 head 都需要完整缓存。据此提出 RedKnot一种 head 感知的 KV cache 管理系统将 KV cache 沿 head 维度分解为结构化内存对象结合 SegPagedAttention 机制统一支持位置无关的 KV 复用、前缀压缩、冷热分离和分布式管理显著提升长上下文服务效率与可扩展性。评分细项rel 9 / nov 7 / prac 8 / author 54. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery评分6.8·方向cs.AI · Artificial Intelligence ·arxiv2606.06473· PDF 多 agent 框架 MLEvolve 用渐进式 MCGS 树搜索与回溯记忆实现 ML 算法自演化在 MLE-Bench 取得 SOTA多agent自演化ML工程摘要LLM 智能体在科学发现和机器学习工程等长期任务中面临分支间信息隔离、无记忆搜索和缺乏层次控制等问题。MLEvolve 提出一种自进化多智能体框架用于端到端机器学习算法发现。核心贡献包括(1) Progressive MCGS——将树搜索扩展为图搜索通过参考边实现跨分支信息流动并借助熵启发的渐进调度从探索过渡到利用(2) Retrospective Memory——结合冷启动领域知识库与动态全局记忆实现经验检索与复用(3) 将策略规划与代码生成解耦的自适应编码模式。在 MLE-Bench 上以一半标准时间达到 SOTA 表现并在数学算法优化任务上超越 AlphaEvolve展现跨领域通用性。评分细项rel 7 / nov 7 / prac 7 / author 55. The Impact of Market Informedness on Market Makers’ Profitability评分7.0·方向q-fin.TR · Trading and Market Microstructure ·arxiv2606.05882· PDF 用 MAPPOCTDE训练异质做市商 agent结合自激 Hawkes 订单流分析市场信息度对做市商盈利的影响。多agent强化学习做市商MAPPO量化交易摘要本文研究市场知情度对做市商盈利能力的影响。与现有文献不同分析在一个复杂市场环境中展开异质做市商在信息集和库存风险厌恶方面存在差异价格内生形成基本面价值外生演化市场订单流具有自激特性。论文为所得状态依赖Hawkes市场参与者过程建立了有限时间稳定性保证包括非爆炸性、指数定价误差可积性、占据时间界及路径尾部估计。求解方面采用基于多智能体近端策略优化MAPPO的强化学习框架在集中训练分散执行CTDE设定下运行。结果表明知情订单流在信息匮乏的市场中尤为危险带来严重逆向选择风险尽管复杂动态和随机训练产生局部非单调效应做市商盈利总体随市场知情度提升而上升说明价格发现效应可抵消逆向选择的负面影响。评分细项rel 8 / nov 6 / prac 6 / author 56. Latent Reasoning with Normalizing Flows评分7.2·方向cs.CL · Computation and Language ·arxiv2606.06447· PDF 用 normalizing flow 建模连续隐式思维链兼容 KV-cache 与自回归解码蒸馏显式 CoT 为紧凑连续表征。推理范式latent reasoningnormalizing flowKV-cache兼容摘要大语言模型通常通过生成显式思维链CoT提升推理能力但文本CoT将中间计算限制在离散、串行的token流中即使底层更新是语义性的或不完整的也必须先语言化。潜在推理latent reasoning提供了更高带宽的替代方案——在连续状态中执行中间计算后再生成文本。然而现有方法往往牺牲了CoT在自回归模型中的关键优势从左到右生成、概率采样、KV cache兼容性及可处理的似然估计。本文提出NF-CoT利用归一化流normalizing flows对连续思维建模保留上述优势。该方法在LLM骨干内实例化TARFlow风格的归一化流为从显式CoT蒸馏得到的紧凑连续思维定义可处理的概率模型。连续思维位置由NF头生成文本位置由标准LM头在同一因果流中生成支持精确似然计算、概率性从左到右解码及潜在空间的直接策略梯度优化。评分细项rel 7.5 / nov 7.5 / prac 6.5 / author 6.07. Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads评分6.8·方向cs.AI · Artificial Intelligence ·arxiv2606.06448· PDF 对 10 种 agent memory 系统做首次系统级 profiling按写/读路径归因开销并给出调度与摊销建议。多agent系统memory系统系统分析摘要LLM 智能体越来越多地被部署于需要长期推理的任务中这要求它们跨会话地存储、检索和更新自身记忆。目前已涌现出多种智能体记忆系统扁平检索、LLM 中介抽取、事实存储整合、智能体控制流等但其系统级行为尚未被深入刻画。本文首次对智能体记忆进行系统层面的表征分析提出了一个沿四个轴分类的系统导向分类法构建了感知阶段的性能分析工具将开销归因于构建、检索和生成三个阶段在两个基准测试上表征了十个代表性系统揭示设计选择如何在读写路径间转移开销最终提炼出涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及舰队级管理的十条系统设计建议。评分细项rel 7 / nov 6 / prac 7 / author 68. Closing the Loop on Latent Reasoning via Test-Time Reconstruction评分6.7·方向cs.AI · Artificial Intelligence ·arxiv2606.06252· PDF 提出 ReLAT在 test-time 用 Query→Latent→Query 重构循环自监督优化隐式推理状态保证 latent thought 的信息保真。推理范式test-time traininglatent reasoning摘要近期研究将中间推理从自然语言 trace 转移到潜在/缓存级表示以降低 token 开销但这也使中间状态不再可检查无法判断潜在状态是否保留了原始查询的约束——即推理在开环中运行。本文提出 ReLATReconstruction-Guided Latent Reasoning At Test Time一种自监督的测试时训练方法通过以查询本身为参考来闭合这一回路。核心思想是若潜在状态忠实表示了查询则查询应可从中恢复否则说明任务相关信息已丢失。ReLAT 构建可微的 Question→Latent Thought→Question 循环在生成答案前优化查询重建损失。在数学推理、知识问答和代码生成基准上ReLAT 持续优于单模型推理、文本协作、开环潜在协作及其他测试时训练基线。评分细项rel 7 / nov 7 / prac 6 / author 59. Unsupervised Skill Discovery for Agentic Data Analysis评分6.3·方向cs.MA · Multiagent Systems ·arxiv2606.06416· PDF DataCOPE无监督验证器引导的技能发现框架从无标注探索轨迹中蒸馏可复用数据分析技能供 agent 推理时调用。agentic workflow技能发现无监督摘要推理时技能增强inference-time skill augmentation可在不更新模型参数的前提下为数据分析智能体注入可复用的程序性知识。然而由于标注成本高且成功标准因分析格式而异发现有效的数据分析技能仍具挑战。本文提出 DataCOPE一种无监督、验证器引导的技能发现框架。该框架从探索轨迹中提取验证信号迭代协调数据分析智能体轨迹生成、无监督验证器信号提取和技能管理器对比式技能蒸馏。针对报告式分析设计自适应清单验证器评估覆盖度针对推理式分析采用答案一致性验证器利用 self-consistency 信号。在 Deep Data Research 和 DABStep 基准上DataCOPE 在四种模型设置中平均提升了 held-out 性能验证了无监督技能发现的有效性。评分细项rel 6.5 / nov 6.0 / prac 6.5 / author 5.510. ToolChoiceConfusion: Causal Minimal Tool Filtering for Reliable LLM Agents评分6.6·方向cs.AI · Artificial Intelligence ·arxiv2606.06284· PDF CMTF 用前置条件-效果合约做因果最小工具过滤每步仅暴露 1 个工具降低 agent 错误调用与 token 开销。agent工具选择多agent系统摘要大语言模型智能体日益依赖外部工具但工具菜单过大会导致错误调用、过早执行和 token 开销增加。现有工具选择方法多基于语义相关性但相关并不等于当前步骤所必需。本文提出因果最小工具过滤Causal Minimal Tool Filtering, CMTF一种无需训练的方法基于因果充分性选择工具利用轻量级前置条件-效果契约仅暴露从当前状态推进至用户目标所需的最小下一步工具集。在包含 102 个任务、100 个工具、4 种 LLM 后端共 2448 次运行的基准测试中CMTF 在整体成功率上与最强因果基线持平同时将每步可见工具从 100 个降至 1 个token 用量相比全工具暴露减少约 90%。评分细项rel 7 / nov 6 / prac 7 / author 4 速览 · 其他通过评估的工作4 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.CL6.2The Tell-Tale Norm:e l l _ 2 \\ell\_2ell_2Magnitude as a Signal for Reasoning Dynamics in Large Language Models· 证明隐藏层 ℓ2 范数可指示推理强度据此设计自适应层递归、状态引导和响应选择三种免训练 test-time scaling 方法cs.AI6.3TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management· TokenMizer 将 LLM 会话历史建模为类型化知识图谱通过 8 层压缩与三级 checkpoint 实现长会话 2× token 压缩。cs.CV6.5RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling· 对视频DiT做异步去噪调度锚定关键帧后让中间帧跳步/插值实现免训练视频生成加速。cs.CV6.1Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators· 用 RL 训练 VLM 策略主动调用世界模拟器生成新视角图像实现 agentic 空间推理Astra 框架。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考