DSpark 深度解读:半自回归 + 置信度调度,DeepSeek 如何把推测解码推向生产极限

发布时间:2026/7/6 2:43:29

DSpark 深度解读:半自回归 + 置信度调度,DeepSeek 如何把推测解码推向生产极限 一句话总结:DSpark 是一种融合半自回归生成与置信度调度验证的推测解码框架,通过在并行骨干上叠加轻量 Markov Head 解决尾部衰减,并通过 Hardware-Aware Prefix Scheduler 消灭验证浪费。在 Qwen3-8B 上,宏观平均接受长度比 DFlash 提升18.4%,比 Eagle3 提升26.7%。在 DeepSeek-V4 生产环境中,匹配吞吐量下用户生成速度加速60%~85%。论文:DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation代码:https://github.com/deepseek-ai/DeepSpec论文 PDF:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf一、从

相关新闻