CPU+GPU:开启AI推理新时代

发布时间:2026/5/20 17:35:12

CPU+GPU:开启AI推理新时代 子玥酱掘金 / 知乎 / CSDN / 简书 同名大家好我是子玥酱一名长期深耕在一线的前端程序媛 ‍。曾就职于多家知名互联网大厂目前在某国企负责前端软件研发相关工作主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向前端 / 跨端 / 小程序 / 移动端工程化内容平台掘金、知乎、CSDN、简书创作特点实战导向、源码拆解、少空谈多落地文章状态长期稳定更新大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍希望能帮你在实际工作中少走弯路。子玥酱 · 前端成长记录官 ✨ 如果你正在做前端或准备长期走前端这条路 关注我第一时间获取前端行业趋势与实践总结 可领取11 类前端进阶学习资源工程化 / 框架 / 跨端 / 面试 / 架构 一起把技术学“明白”也用“到位”持续写作持续进阶。愿我们都能在代码和生活里走得更稳一点 文章目录引言一、AI 推理已经不是“跑个模型”了二、GPU 为什么越来越“吃不消”三、第一个瓶颈显存四、第二个瓶颈GPU 不擅长“系统调度”五、第三个瓶颈GPU 太贵了六、CPU 在 AI 推理里重新崛起七、CPU 开始负责“AI Runtime”八、推理时代真正重要的是“吞吐”九、Prefill 和 Decode 正在被拆开1、Prefill2、Decode十、Agent 时代CPU 更重要了十一、长上下文正在改变推理架构十二、AI 推理正在变成“分层系统”十三、AI Infra 开始像“云计算”十四、CPU GPU不是过渡方案十五、 AI 推理真正进入“系统时代”总结引言过去几年AI 推理有一个很明显的变化最早大家关注的是“模型有多大”后来开始关注“训练有多贵”再后来问题慢慢变成一句更现实的话模型真正上线以后怎么跑得动因为真正进入生产环境后AI 系统面对的不是 benchmark而是海量并发长上下文多模态输入实时响应推理成本GPU 资源争抢显存瓶颈latency SLAagent 多轮调用tool chaining用户等待时间。很多团队第一次上线大模型时都会有一种错觉训练都做完了 推理应该只是“调用一下模型”。结果真正上线后才发现推理阶段才是 AI 工程真正开始烧钱、烧架构、烧系统能力的地方。于是一个新的方向开始越来越重要CPU GPU 协同推理。它不是“GPU 不够用了拿 CPU 凑”而是一种新的 AI 系统架构思路让 CPU 和 GPU 不再各干各的而是一起组成 AI 推理系统。这篇文章我们就来聊聊为什么 AI 推理越来越依赖 CPU GPU 协同GPU 为什么开始“带不动”CPU 在 AI 推理里到底重新承担了什么角色为什么未来 AI Infra 不再只是“堆 GPU”Agent、多模态、长上下文时代为什么必须重新设计推理架构。一、AI 推理已经不是“跑个模型”了很多人对 AI 推理的理解还停留在输入 prompt ↓ GPU 算一下 ↓ 输出 token但真实的大模型线上系统远比这个复杂一次完整 AI 请求往往包含用户请求 ↓ 路由与鉴权 ↓ 上下文拼接 ↓ memory 检索 ↓ RAG 查询 ↓ tool 选择 ↓ prompt 构建 ↓ KV cache 管理 ↓ GPU 推理 ↓ stream 输出 ↓ 状态保存 ↓ trace / logging这里真正完全依赖 GPU 的其实只有Transformer Forward而剩下的大量工作调度IOcachetokenization请求管理batch 合并session 管理context 拼接agent orchestration本质上都更偏 CPU所以现在 AI Infra 最大的变化之一就是GPU 不再是整个系统GPU 只是系统中的“计算核心”。真正的 AI 推理系统开始越来越像CPU AI 操作系统 GPU AI 计算核心二、GPU 为什么越来越“吃不消”大模型刚爆发的时候行业的核心逻辑很简单模型越大 → GPU 越多 → 能力越强于是大家疯狂堆 GPU但问题是GPU 并不是无限扩展的。尤其在推理阶段GPU 正在遇到三个越来越严重的问题。三、第一个瓶颈显存很多人第一次部署 70B 模型时都会发现不是算力不够 而是显存先炸了。因为推理阶段真正昂贵的很多时候不是参数而是KV Cache。Transformer 推理里每生成一个 token都要保存 attention 的 key/value。上下文越长KV cache 越大并发越高KV cache 爆炸越快Agent 越复杂session 保留越久于是现在 AI 系统里一个越来越现实的问题是GPU 算得动但存不下。尤其长上下文多轮 agent多用户 session多模态 embeddingstreaming generation都会疯狂消耗显存这也是为什么现在越来越多系统开始KV cache offloadingpaged attentionunified memoryCPU memory spillhierarchical cache。也就是说GPU 开始只保留“热点计算数据”剩下的数据交给 CPU 内存体系。四、第二个瓶颈GPU 不擅长“系统调度”GPU 特别擅长超大规模并行矩阵计算但 GPU 不擅长动态调度复杂状态机高 IO分支逻辑多任务 orchestration大量小任务切换。问题是Agent 系统恰恰全是这些东西。比如一次 AI Agent run用户问题 ↓ Planner ↓ Tool Selection ↓ RAG ↓ Code Interpreter ↓ Memory Retrieve ↓ Browser Tool ↓ 多轮反思 ↓ 最终输出这里真正适合 GPU 的只有LLM forward而 orchestration 更像分布式系统 工作流系统于是 CPU 又重新变得重要因为CPU 更适合“控制”GPU 更适合“计算”。五、第三个瓶颈GPU 太贵了这个问题其实最现实GPU 推理真正的问题从来不只是技术而是成本。尤其 AI 产品进入真实商业化后团队会很快发现用户增长 ≠ 利润增长因为token 越多 → GPU 消耗越高 → 推理成本越高于是越来越多公司开始研究CPU 推理Hybrid inferenceheterogeneous computingGPU sharingspeculative decodingCPU prefilllow-bit quantization。本质目标只有一个尽量减少 GPU 占用时间。因为 GPU 已经不是“计算资源”这么简单了它现在是AI 时代最昂贵的基础设施。六、CPU 在 AI 推理里重新崛起很多人误以为AI 时代 CPU 没用了实际上恰恰相反AI 时代 CPU 的角色不是消失而是升级。以前CPU 是主计算核心 GPU 是加速卡现在开始变成GPU 负责 dense compute CPU 负责整个 AI runtime尤其在推理系统里CPU 正在承担越来越多工作。七、CPU 开始负责“AI Runtime”现在很多 AI Infra本质都在做一件事AI Runtime。比如request schedulingtoken batchingsession lifecycleKV cache 管理model routingmemory orchestrationcontext compressionagent stateretryfallbacktraceobservability。这些都不是 GPU 擅长的。于是现代 AI 推理越来越像CPU 负责“系统” GPU 负责“算子”这个趋势其实和数据库、操作系统、浏览器的发展非常像。最早大家拼的是谁算得快后来发现真正决定系统能力的是谁更会调度。八、推理时代真正重要的是“吞吐”训练时代大家拼 FLOPS推理时代大家开始拼TPStokens per second以及TPOTtime per output token问题是GPU utilization 很难始终拉满。因为线上请求天然是动态的碎片化的长短不一的session 化的不可预测的。于是 CPU 开始负责dynamic batchingqueue mergingrequest packingtoken schedulingprefill/decode 分离。因为真正浪费 GPU 的不是计算而是等待。九、Prefill 和 Decode 正在被拆开这是现在 AI 推理里非常重要的趋势Transformer 推理实际上分两阶段1、Prefill处理输入上下文特点并行度高计算密集吃 GPU。2、Decode逐 token 生成特点sequentiallatency 敏感GPU 利用率反而没那么高。于是现在越来越多系统开始CPU GPU 分工例如CPU 管理 prefill queueGPU 专注 decode多 GPU 分离阶段CPU 负责 token 调度。因为decode 阶段越来越像“实时系统”。十、Agent 时代CPU 更重要了传统 ChatBot一次输入 → 一次输出但 Agent 完全不同Agent 是状态机它包含planningtool usememoryretriesbranchinginterruptscheckpointsreflectionhuman approval。这些东西本质上都更偏runtime orchestration而不是matrix multiplication所以未来 Agent 系统很可能变成CPU-heavy GPU-accelerated而不是GPU-only十一、长上下文正在改变推理架构长上下文是另一个关键变量当 context 从4K → 32K → 128K → 1M系统结构会完全变化因为attention complexity 太高。于是sliding windowcontext compressionretrieval memoryKV evictionhierarchical cache开始越来越重要而这些机制大量依赖CPU memory runtime scheduling因为GPU 显存不可能无限增长。十二、AI 推理正在变成“分层系统”以前模型 系统现在越来越变成模型 只是系统中的一个组件真正的 AI Infra 开始分层Application Layer Agent Layer Runtime Layer Scheduler Layer KV Cache Layer Inference Engine GPU Kernel Hardware而 CPU 正在承担Runtime SchedulerGPU 承担Kernel Tensor Compute于是未来真正强的 AI 公司可能不是“谁模型最大”而是“谁 runtime 最强”。十三、AI Infra 开始像“云计算”这个趋势其实越来越明显过去几年 AI Infra 很像超级计算未来会越来越像云操作系统因为真正困难的问题开始变成GPU 如何共享session 如何迁移KV cache 如何复用inference 如何弹性扩缩agent state 如何恢复多模型如何路由如何降低 cold start如何控制成本如何提高 utilization。这些问题本质已经不是模型问题而是系统工程问题十四、CPU GPU不是过渡方案很多人以为CPU GPU 只是 GPU 不够时的临时方案其实不是它更像AI 系统开始成熟的标志。因为任何真正大规模系统最终都会分层 调度 缓存 协同 资源管理 状态管理数据库如此、浏览器如此、Kubernetes 如此、AI Runtime 也一样。十五、 AI 推理真正进入“系统时代”过去几年AI 的核心竞争 模型能力接下来会越来越变成AI 的核心竞争 推理系统能力包括runtimeschedulerobservabilitymemoryorchestrationcacheinfraagent executionheterogeneous computing。所以 CPU GPU 本质上不是硬件组合而是AI 系统从“模型时代”进入“系统时代”的开始。总结AI 推理正在发生一次非常深的架构变化过去GPU 是主角未来GPU 负责计算 CPU 负责系统AI 系统会越来越像一个新的操作系统。它需要调度memorycachestateruntimeorchestrationrecoveryobservabilityheterogeneous computing。而真正困难的问题也会越来越从“模型会不会”变成“系统能不能稳定、高效、低成本地运行”所以 CPU GPU 的意义从来不只是两种芯片一起工作而是AI 推理正式进入工程化、系统化、运行时化的新阶段。

相关新闻