09 KV Cache:为什么大模型能一边生成一边加速

发布时间:2026/6/8 16:47:25

09 KV Cache:为什么大模型能一边生成一边加速 专栏:大模型应用开发:从原理到生产篇号:09内容标签:KV Cache、大模型推理、Transformer、GPU、AIGC上一篇我们讲了大模型推理流程。你已经知道,生成式大模型不是一次性写完整段答案,而是反复做一件事:根据当前上下文,预测下一个 Token。选出一个 Token 后,把它拼回上下文,再继续预测下一个。这个机制很自然,但它马上带来一个性能问题。如果模型每生成一个新 Token,都要把前面所有历史 Token 从头到尾重新算一遍,那输出越长,后面每一步就越慢。比如 Prompt 有 100 个 Token。生成第 1 个 Token,要处理这 100 个 Token。生成第 2 个 Token,如果没有优化,就要处理 101 个 Token。生成第 3 个 Token,就要处理 102 个 Token。一直生成到第 500 个 Token,就要反复处理越来越长的历史。这显然不现实。KV Cache 就是为了解决这个问题。它的核心思想非常朴素:历史 Token 已经算过的 Key 和 Value,不要每一轮都重算

相关新闻