模型推理的“预算驱动动态深度路由”(BUDDY):原理、实现与效果实测

发布时间:2026/6/28 16:38:00

模型推理的“预算驱动动态深度路由”(BUDDY):原理、实现与效果实测 引言:大模型推理的“算力焦虑”与破局之路2026年,大语言模型(LLM)的推理成本依然是制约其大规模落地的核心瓶颈。模型越做越大、层数越堆越深,推理延迟和计算开销却成了悬在每一位AI从业者头上的达摩克利斯之剑。深度剪枝(Depth Pruning)作为一种经典的推理加速手段,通过跳过冗余的Transformer层来降低延迟。但现有的深度剪枝方法存在两个致命缺陷:一是无法根据用户指定的计算预算灵活调整,二是路由路径在Prefill阶段就被固定,无法在Decoding过程中动态适应不断增长的上下文。2026年6月8日,Yuhua Zhou等七位研究者在arXiv上提交了一篇题为《BUDDY: BUdget-Driven DYnamic Depth Routing for Adaptive Large Language Model Inference》的论文(arXiv:2606.09514),提出了一种名为BUDDY的全新推理框架。BUDDY的核心思想是:让模型在推理时根据用户给定的“预算”(即希望执行的层数),动态选择最值得执行的那些层,而不是固定地跳过某些层。这项研究已被ICML 2026接收。本文将深入拆解BUDDY的原理、实现细节、实验效果,并与现有方案进行全面对比,最后给出实战部署建议。一、问题拆解:为什么现有的深度剪枝不够好?

相关新闻