
强LLM不一定是好优化器决定胜负的不是参数量而是局部精修的能力核心摘要把LLM塞进进化算法的循环里、让它当 mutation 算子来跑优化这两年成了 AlphaEvolve、AI Scientist、PromptBreeder 这类系统的标准做法。但有个尴尬的现象一直没人系统讲清楚同样的 evolutionary loop、同样的 fitness function、同样的初始种群换个 LLM 进去跑最终 fitness 能差出一截。这是 base model 能力的差异还是更隐蔽的搜索行为差异这篇来自 Univ. Grenoble Alpes 的论文扔了 15 个模型、8 个任务、72K 候选解进去做了个大规模 trajectory 分析结论挺反直觉zero-shot 能力只能解释一部分性能差异R²0.103真正卡在哪里的是模型作为局部精修器local refiner的稳定性。强 optimizer 不是那种偶尔来个大跃进的而是能持续不断小步改进、把搜索逐渐收敛到语义空间的局部高地。更扎心的是——Mistral-24B-Instruct 在性价比帕累托前沿上稳压 GPT-4o、DeepSeek-V3、Gemini-1.5-Pro。如果你正在选模型搭 evolutionary agent 系统这篇值得花半小时读。论文信息标题What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search作者Xinhao Zhang, Xi Chen, François Portet, Maxime Peyrard机构Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, FrancearXiv2604.19440项目页xinhao-zhang.github.io/traj_evo_search数据集HuggingFace - LivevreXH/evo_llm_trajectories为什么这个问题值得做我之前在做 prompt optimization 的时候踩过一个坑——拿 GPT-4o 当 mutation 算子去 evolve prompt跑 30 代之后 fitness 卡在某个值怎么都上不去换成 Mistral 7B反而能多挤出几个点。当时下意识以为是 random seed 的事重跑了一轮还是这样就放下了没深究。后来看 AlphaEvolve、PromptBreeder、FunSearch 这一系列工作越铺越大才意识到这个问题被绕过去了——所有人都默认更强的 LLM 当 optimizer 一定更好但其实没人去算过这个账。这篇论文做的事情就是把这个账算清楚在严格控制的进化框架下同样的 selection、同样的 mutation 接口、同样的 evaluation15 个 LLM 在 8 个任务上跑 30 代每代 10 个 offspring重复两次72,000 API 调用、约 500 美刀的实验成本把每条 trajectory 都存下来分析。不是 benchmark 那种谁分高谁牛的玩法而是看搜索过程本身的几何形状。框架LLM 当 mutation 算子的进化搜索先把游戏规则讲清楚。整个 loop 走的是经典的进化算法图1方法总览。整个流程像一个LLM 在不停看上一代的优胜方案、给出改进版的循环。论文要回答的是在这个循环里什么样的 LLM 才是好算子具体的设置Selection每代取 top-20% 作为 elite按 fitness 加权采样作 parentMutation把 parent 当 context 喂给 LLM让它生成 offspringtemperature0.7Pool 更新去重后合并超过容量 N 时只留 top-N四个任务族覆盖了 LLM-guided 进化搜索常见的应用场景任务族子任务GenomeFitnessRoute OptimizationTSP-30, TSP-60城市排列− L ( π ) -L(\pi)−L(π)路径长度的负值Prompt OptimizationSAMSum, ASSET自然语言指令ROUGE-L / SARIEquation DiscoveryOscillator-1, Oscillator-2Python 函数1 − norm ( MSE ) 1 - \text{norm}(\text{MSE})1−norm(MSE)Heuristic DesignBin Packing OR3, Weibullpriority function1 / bins 1/\text{bins}1/bins15 个模型横跨 6 个家族OpenAIGPT-4o, GPT-4o-mini, GPT-3.5-turbo、Gemini1.5-Pro, 1.5-Flash, Gemma-3n-4B、Llama3.1-70B/8B-Instruct, 3.2-3B/1B-Instruct、DeepSeek-V3、Mistral 全家7B, 24B, Large, Magistral-Small。这套实验设置算是相当扎实没有偷偷换 selection 规则或者挑对自己有利的 task的嫌疑。第一刀zero-shot 能力到底解释了多少最朴素的假设模型 zero-shot 能力越强当 optimizer 也越强。这个相关性是存在的——图2横轴是 zero-shot 平均 fitness纵轴是 30 代进化后的最终 fitness。整体确实强相关但散点离回归线的偏差不小——很多模型偏离回归线 5 个点以上。最显眼的是 Mistral-24B-Instruct——zero-shot 排在中间进化后却跳到了 0.81 的最高点而 GPT-4o、Gemini-1.5-Pro 这些 zero-shot 顶尖的最终也就 0.75 左右。这就是论文要追的残差。同样在 zero-shot 0.4 附近聚成一堆的模型进化完之后能差出一大截。zero-shot 解释力 R²0.103连 11% 都不到。说实话第一眼我有点意外。我之前的直觉是 zero-shot 能力应该能解释 50% 以上——毕竟好的 mutation 至少得理解任务、得能产出 valid solution。结果连 1/4 都不到剩下 90% 的方差是哪来的论文的回答是搜索过程本身的差异。模型 A 和模型 B 在 zero-shot 上半斤八两但 mutation 行为可以完全不一样——一个像精雕细琢的工匠一个像撒网捞鱼。举个具体例子DeepSeek-V3 在 first-generation 的平均 fitness 是 56.9全场最高比 GPT-4o (46.5) 高了 10 个点但跑完 30 代之后DeepSeek-V3 只到 75.3反而被 GPT-4o (77.4) 反超。起跑领先 10 个点全程被反超——这就是搜索行为差异在做功的最清楚证据。Zero-shot 决定起点但决定终点的是别的东西。第二刀novelty 真的是好东西吗这里就到了我个人最被打动的部分。经典的进化算法理论里novelty/diversity 是 exploration 的代理被认为是好东西。如果搜索陷在局部最优就需要更高的 novelty 来跳出去。LLM-guided evolution 的常识理解也是这样mutation 不是随机的、而是被 LLM 的 prior 强烈塑形的那 exploration 就更受限了所以novelty 应该更重要。——论文的实验结果直接打脸。图3novelty 相关的两个指标avg novelty、init novelty系数是灰色的nsnot significant贡献几乎为零。真正能预测最终 fitness 的是 Breakthrough Rate——也就是出现一次 best-so-far 改进的频率。BR 单独的 R²0.198是 zero-shot 单独 R²0.103 的近两倍。这个图我盯着看了好久。它其实在颠覆一个直觉做 LLM-guided 优化不是要让模型想得更野而是要让它持续不断地小步前进。什么是 breakthrough论文定义得非常朴素当前这一代里只要有任意一个 offspring 的 fitness 超过了所有历史代的最优就算一次 breakthrough。Breakthrough Rate breakthrough 数 / 总代数。我的第一反应是怀疑会不会是定义太宽后面的混合效应回归generation-level进一步把这个故事讲实了——图4这是篇文章里我觉得最关键的统计证据。注意右图laggedMean novelty 单独的效应已经不显著了系数贴近 0但Mean novelty × H_spatial 的交互项仍然显著负相关。翻译过来就是novelty 本身没用只有当搜索保持局部化low H_spatial的时候novelty 才会带来 breakthrough。否则 novelty 只是在瞎逛。说到这块我突然想起来之前看的一个 LAS landscape analysis 的工作也在 related work 里被引了跟这篇的结论是同一个方向——LLM-driven 的优化更像 “exploitation-heavy” 的过程randomness 反而是负担。这里也跟经典进化算法理论分歧得很彻底。Mitchell Taylor (1999) 那本经典里evolutionary search 的典型行为是长 plateau 偶发大跃进——大部分时候在小修小补偶尔一次成功的 mutation 把 fitness 推到新高。但在 LLM-guided 这套里好 trajectory 长得不像这样——它是连续的小台阶累积没有明显的大跃进长 plateau模式。这是因为 LLM mutation 不是真正的随机它本身就被 prior 引导着往好的方向改所以小步快走是更自然的状态。第三刀trajectory 的几何长什么样光看数字不够论文还在语义空间里把 trajectory 画了出来。这是我觉得最有说服力的可视化图5左边 Gemini-1.5-Pro 的 trajectory 像在螺旋下降——前几代 novelty 很高在搜索空间游荡随着代数推进逐渐 commit 到一个 fitness 高的 region。右边 Mistral-7B-Instruct 一直在搞高 novelty但 fitness 涨不上去——典型的为了多样性而多样性。光看 fitness vs. novelty 还不够直观。再看 MDS 投影到二维语义空间——图6Gemini-1.5-Pro左的 trajectory 形成一个明显的黄色聚团——“高 fitness 解都聚在某个 region”Mistral-7B-Instruct右的点散满整个空间黄色高 fitness 的点也是星星点点散开的。前者是收敛、后者是扩散——就这么简单。最后看 best-so-far fitness curve图7这就是 trajectory 几何差异的最终结果——同样跑 30 代一个收敛到 fitness ≈ 1.0一个还在 0.5-0.7 之间打转。到这里effective LLM optimizer local refiner局部精修器的故事基本闭环了。第四刀operator-level 验证——LRR 才是关键前面都是 trajectory-level 的描述。但要把局部精修这个判断坐实还得在更细的 parent → child mutation 层面做验证。论文定义了两个 operator-level 指标LRR (Local Refinement Rate)offspring 严格优于其 prompted parent 的频率在所有 valid offspring 里的比例PCD (Parent–Child Distance)offspring 跟 parent 在语义空间里的平均距离“修改幅度”跑回归模型ZS PCDZS LRR PCDZero-shot Perf. (z)0.233* (0.028)0.144 (0.112)Avg. Parent–Child Distance (z)−0.329**(0.001)−0.024 (0.838)Avg. Local Refinement Rate (z)—0.528***(\lt0.001)R²0.2040.367这张表挺漂亮的。第一列单独看 PCD修改幅度系数显著为负——改得越狠越差。一个直觉的解释是魔改容易出 bug。第二列把 LRR 加进去之后PCD 的系数从 −0.329 直接掉到 −0.024完全失去显著性。这说明 PCD 之所以负相关是因为大幅修改往往降低了 refinement 的成功率一旦控制了 refinement 行为修改幅度本身没那么重要。LRR 自己的系数是 0.528p\lt0.001——最强的预测因子。R² 从 0.204 跳到 0.367几乎翻倍。这就是论文的核心 insight 浓缩成的一张表好的 LLM optimizer ≈ 高 LRR。不是修改幅度大、不是 novelty 高、甚至不是 zero-shot 强——而是每次改动都能稳稳地比 parent 好一点点。第五刀扰动实验——把 refinement 行为掰断给你看到这里还都是相关性。要做因果论文跑了一个 model mixing 的扰动实验在每代 mutation 里混入一定比例由弱 refiner模型生成的 offspring剩下由强 refiner生成。看 fitness 怎么变。图8在 TSP-60 和 Bin Packing 上weak-refiner 比例越高fitness 几乎是单调下降跟 refinement rate 同步坍塌Pearson r 高达 0.96-0.99。Prompt Optimization 上信号弱一些r0.45但方向一致。这是相当强的因果证据——你可以直接通过换掉一部分 mutation 算子来摧毁系统的优化能力。我觉得这个实验设计很聪明。比起单纯换模型很多变量都变了混合策略只动 mutation 这一个环节能更干净地隔离 refinement 行为的作用。不过论文自己也在 Limitations 里坦诚——换模型还是会附带其他不可见的变化比如 reasoning pattern、exploration tendency完全 isolate refinement 还是做不到。这个 caveat 我觉得说得很到位。第六刀成本对比——Mistral-24B 是真正的赢家最后一个 punchline 在这张图里图9Pareto 前沿上从左到右是 Llama-3.2-1B → Llama-3.1-8B → Mistral-7B →Mistral-24B-Instruct。Mistral-24B 在 0.1-0.2 美刀的成本下达到了 0.6 的 fitness 提升——这是图里最高的提升幅度。再往右的 GPT-4o、DeepSeek-V3、Gemini-1.5-Pro成本贵了 50-100 倍fitness 提升反而更低。这张图其实是整篇论文最实用的一张。如果你正在搭一个 LLM-guided evolutionary 系统看完这张图就能直接做选型决策——别默认选最贵的模型先验证它是不是好的 local refiner。完整实验结果Table 2 摘要论文 Appendix A 给了一个完整的 fitness 对比表横跨 4 个 task family、最后一列是平均。挑几个关键数字看模型Zero-Shot AvgFirst Generation AvgLast Generation AvgGPT-4o53.346.577.4Gemini-1.5-Pro47.849.476.4DeepSeek-V345.856.975.3Mistral-Large45.049.575.7Mistral-24B-Instruct42.851.081.6Mistral-7B-Instruct34.745.570.0GPT-4o-mini38.447.170.1Gemini-1.5-Flash29.647.268.2Gemma-3n-4B19.646.860.8GPT-3.5-turbo18.045.859.3注意几个有意思的现象DeepSeek-V3 第一代最强first-gen avg 56.9但最后一代只有 75.3——zero-shot 强、但优化能力没跟上。这就是论文里说的early performance does not predict long-horizon outcomes。Mistral-24B-Instruct 最终拿了第一名81.6把 GPT-4o (77.4) 甩了 4 个点。它的 zero-shot 只有 42.8比 GPT-4o 低 10 多个点。Llama-3.1-8B-Instruct (72.2) Llama-3.1-70B-Instruct (69.2)——同家族里 8B 反过来打 70B。这个现象单独抽出来足够让所有参数即正义的信仰崩一块。Magistral-Small (70.4) 跟 Mistral-Large (75.7) 中间隔了 5 个点但 Magistral-Small 的 zero-shot 反而比 Mistral-Large 高29.0 vs 19.5。同家族里reasoning 强化版未必更适合当 search operator——这个观察单独拎出来又是一个值得后续展开的研究点。我的判断亮点大规模、多任务、严格 controlled的 setup 是真硬核72K 个 candidate solution、500 美刀实验成本结论的统计力度是足够的。把数据集开源到 HuggingFace 这一点也很专业后续工作可以直接 build on top of。Local Refiner框架在概念上是对的。它把模型在 evolutionary loop 里到底在干什么这个 black box 给打开了一个口子给出了一个可量化的 operator-level 描述。LRR 是个非常实用的指标可以直接拿来做模型筛选。几何分析框架spatial entropy fitness spatial entropy有可迁移性。不只能分析 evolutionary search应该可以推广到任何 iterative agent loop 的 trajectory 分析比如 ReAct、Reflection 这些。批判性结论挺扎实“novelty 不是好东西”、参数大不一定好这两点本身就是有冲击力的发现配合扰动实验做了因果验证让人不容易反驳。问题与局限local refinement的可操作性还需要更多工程经验。论文给了 LRR 这个事后 metric但没给如何提前预测一个模型 LRR 高不高的方法。除了实跑一遍工程师拿到一个新模型时还是没法快速判断它适不适合当 optimizer。任务覆盖偏窄。4 个 task family 里有 2 个是相对成熟的 LLM-guided evolution 应用TSP、prompt optimizationequation discovery 和 bin packing 也算常见。但更接近真实 agent 场景的 web automation、coding agent 等没有覆盖。结论能不能外推到 long-horizon agent task 还要打个问号。为什么 Mistral-24B 是最强的 local refiner这个机制问题没回答。是它的 RLHF 数据里有更多 incremental refinement 的样本还是某种 inductive bias论文留给了future work——但这恰恰是工程上最关心的问题。跟 RL/SFT 训练的关系没展开。论文最后提了一句future work may benefit from training models as effective search operators引了 EvoTune (Šurina et al., 2025)但没展开讲 LRR 这个目标如何融到 training loss 里。如果有refine-as-RL-target的实验这篇论文的影响力会再上一个台阶。对工程实践的启发选模型时别迷信越强越好。如果你在搭 LLM-guided evolutionary 系统PromptBreeder、AlphaEvolve 这类先用一个小规模 trajectory 评估 LRR 和 trajectory localization再决定主力模型。Mistral 24B 这个量级值得试。prompting 要鼓励 incremental refinement。论文 Appendix C 给的 evolution prompt 模板里都有please return one BETTER child这种引导。可以在 prompt 里强化 “modify minimally”、keep what works之类的约束可能能提升 LRR。不要盲目追求 diversity/novelty。如果你在系统里加了 novelty bonus 来鼓励探索先验证你的搜索是不是已经处于足够 localized 的状态——否则 novelty bonus 反而是噪声。设计自己的 trajectory 监控指标。LRR 和 spatial entropy 的计算成本不高可以做成 evolution loop 的实时监控 dashboard。Spatial entropy 突然飙升可能是搜索失控的早期信号。混合模型作为兜底策略。论文的扰动实验是反向证明混入弱 refiner 会拖垮性能但反过来想——如果不同模型在不同任务/不同阶段的 LRR 不一样那 ensemble 几个 strong refiner 来覆盖更广的 task distribution理论上是更稳的方案。这个方向论文没展开但工程上值得试。一个开放问题论文最后讨论里提到一个观察refinement behavior 不是 base model 单独的属性而是整个 agentic system 的 emergent 性质——模型、prompt、decoding 配置一起决定。这其实暗示了一个更根本的问题——**LRR 是不是可以通过 prompt engineering 单独优化出来**论文 Appendix D.1 提到 temperature 会影响 refinement rate但没系统对比不同 prompting strategy 下同一模型的 LRR 变化。如果答案是可以那意味着我们不需要训练新模型只要找对 prompt 就能把 GPT-4o 调成跟 Mistral-24B 一样好的 optimizer。如果答案是不行那 RL/SFT 训练就成了必经之路EvoTune 那条线。这两个方向的差别非常大。希望后续工作能给出明确答案。收尾LLM-guided 进化搜索这个赛道这一两年已经卷起来了——从 FunSearch 到 AlphaEvolve、从 PromptBreeder 到 EvoPrompt、从 EoH 到 ReEvo。但绝大部分工作都在比哪个系统跑出来的最终 fitness 最高没几个人停下来问为什么这个系统跑得高。这篇论文做的就是停下来问的那个工作。它告诉你这个游戏不是参数量的游戏、不是探索 vs. 利用的简单 trade-off而是能不能稳稳地小步前进的游戏。这个 takeaway 让我想起做 RL 训练时的一个老经验——reward 方差比 reward 均值更重要。能稳定给出小奖励的 environment比偶尔给大奖励的 environment 更容易学到好策略。LLM 当 optimizer 也是同一个道理。如果你是在做 agent system 设计这套 trajectory 分析框架应该会成为你工具箱里的一员。如果你是在做模型 post-traininglocal refinement as objective可能是一条值得探索的 fine-tuning 方向。觉得有启发的话欢迎点赞、在看、转发。跟进最新AI前沿关注我