
1. 项目概述当内存开始思考GPU的黄昏来临了吗最近几年AI推理特别是大语言模型LLM的推理成了硬件圈子里最热门也最让人头疼的话题。我们这些搞硬件、做部署的每天都在和显存带宽、延迟、功耗较劲。手里拿着RTX 4060、A100这些卡跑训练时感觉马力十足一到推理生成文本尤其是自回归解码阶段看着那可怜的GPU利用率心里就忍不住嘀咕这算力是不是都浪费了问题的核心其实早就不是浮点运算能力不够而是数据“喂”不饱计算单元。一篇2026年初的arXiv论文arXiv:2601.05047说得直白LLM推理的主要挑战是内存和互连而非计算本身。GPU的算术单元超过一半的时间在“空转”等待数据从内存中搬运过来。于是一个颠覆性的思路出现了既然数据搬运是瓶颈那为什么不让计算去数据所在的地方呢这就是“存内计算”Processing-in-Memory, PIM的核心哲学。听起来像是科幻概念但它已经不再是纸上谈兵。SK海力士的AiMAccelerator-in-Memory已经作为商业产品出货三星在2026年2月发布了LPDDR5X-PIM下一代HBM4标准更是计划将逻辑芯片直接集成到内存堆栈中让内存堆栈本身变成一个协处理器。这一切都指向一个激动人心的问题如果内存自己能计算我们还需要GPU吗作为一个和GPU打了十几年交道的从业者我的短期答案是需要而且会长期需要。但PIM正在深刻地重塑LLM推理的硬件架构版图。它不会杀死GPU但会重新划定GPU的势力范围。这篇文章我就结合最新的论文和产品动态拆解一下PIM的原理、现状、局限以及它对我们这些开发者、研究者和普通用户到底意味着什么。无论你是正在为推理延迟发愁的工程师还是关注硬件趋势的爱好者相信这些来自一线的分析和判断都能给你带来启发。2. 内存墙困境GPU算力为何在推理中“沉睡”要理解PIM的价值首先得看清当前GPU在LLM推理中到底卡在了哪里。很多人有个误解认为推理慢是因为GPU算力不足于是拼命追求更高的TFLOPS每秒万亿次浮点运算。但实际上对于LLM推理特别是其核心的文本生成阶段真正的瓶颈是“内存墙”。2.1 LLM推理的两阶段与瓶颈迁移LLM的推理过程可以清晰地分为两个阶段每个阶段的瓶颈截然不同预填充阶段这是处理用户输入提示词Prompt的阶段。系统会一次性并行处理提示中的所有token进行大规模的矩阵-矩阵乘法运算。这个阶段计算密度高GPU的数千个核心能够被充分调度和利用因此是计算密集型的。你的GPU利用率可以轻松跑到90%以上感觉物尽其用。解码阶段这是自回归生成文本的阶段每次只生成一个token。每一步都需要从庞大的“键值缓存”KV Cache中读取数据与当前token的查询向量进行注意力计算本质上是一个矩阵-向量乘法。这个操作的计算量相对很小但需要搬运的数据量巨大。GPU强大的算力在这里无处施展因为它在绝大部分时间里都在等待高带宽内存HBM把数据送过来。因此这个阶段是内存带宽密集型的。问题的关键在于一次完整的对话或生成长文本绝大部分时间都花在了解码阶段。预填充可能只需几秒而解码生成几百个token可能需要几十秒。在这漫长的解码时间里GPU的算力处于严重的“饥饿”状态。2.2 量化分析带宽与算力的巨大鸿沟让我们用具体数字来感受一下这种失衡。以消费级的RTX 4060 8GB为例峰值算力FP16约15.11 TFLOPS显存带宽272 GB/s要完全“喂饱”这块GPU的算力需要多高的计算密度呢我们可以用一个叫“算术强度”的指标来衡量即每从内存搬运1字节数据能完成多少次浮点运算。所需算术强度 峰值算力 / 峰值带宽 15.11 TFLOPs / 272 GB/s ≈ 55.6 FLOP/byte这意味着GPU要满负荷运转平均每取1字节数据就得做大约56次浮点运算。然而在LLM解码阶段典型的矩阵-向量乘法操作实际算术强度仅有1-2 FLOP/byte。这中间存在着数十倍的差距结果就是在解码阶段GPU的算力利用率常常低于5%。你花大价钱买来的强大算力绝大部分时间都在闲置等待。即便是数据中心级的王者A100 80GB也面临同样的问题其HBM2e带宽约2TB/sFP16算力约312 TFLOPS所需算术强度高达156 FLOP/byte对比解码阶段的1-2 FLOP/byte带宽缺口同样高达50-100倍。这就是为什么即使拥有顶级算力LLM的文本生成速度依然受制于内存带宽。注意这个“内存墙”问题在模型参数量越来越大、KV Cache随之膨胀的今天愈发严重。当你尝试在8GB显存的卡上跑70B参数的模型即使使用量化技术大部分时间也花在了在系统内存和显存之间来回倒腾数据上而不是计算。3. 存内计算原理把计算送到数据家门口既然数据搬运是罪魁祸首最直接的思路就是避免搬运。传统冯·诺依曼架构是“数据围绕计算转”数据从DRAM/HBM中取出通过总线如GDDR或HBM的TSV接口传输到GPU的计算核心算完后再把结果写回内存。这个过程产生了巨大的数据迁移开销和能耗。PIM的思路是革命性的让“计算围绕数据转”。它将简单的计算单元如乘加器直接嵌入到内存芯片的内部或者放置在内存堆栈的底层逻辑芯片上。这样数据无需离开内存阵列就能在原地被处理只有最终的结果需要输出。3.1 架构对比传统 vs. PIM传统架构数据DRAM/HBM → 高延迟/有限带宽的总线 → GPU计算核心 → 总线 → 数据DRAM/HBM瓶颈总线带宽。无论GPU内部多快数据进出口的“收费站”就这么宽。PIM架构数据在DRAM/HBM内部 → 内存芯片内的计算单元 → 结果输出瓶颈内存芯片内部的数据通路带宽这比外部总线带宽高出几个数量级。举个例子HBM堆栈内部每个DRAM层Die都有大量的存储单元阵列Bank。这些Bank到内部I/O电路的带宽远高于整个HBM堆栈通过硅通孔TSV和中介层Interposer与GPU核心通信的外部带宽。在HBM内部进行计算相当于把工厂的加工车间直接建在了原料仓库里省去了原料运输的环节。3.2 技术实现路径目前PIM主要有几种实现方式近内存计算计算单元不直接放在存储单元阵列里而是放在内存芯片的I/O区域或底层逻辑芯片上。数据仍需从存储阵列移动到计算单元但距离极短通常在毫米级且通过芯片内部超高带宽的互连连接。HBM4计划集成的逻辑芯片就属于此类。真存内计算计算单元直接与存储单元如DRAM的电容晶体管集成利用模拟特性进行计算如基于电阻式存储器RRAM的乘加运算。这种方式能效潜力极高但工艺复杂成熟度较低。目前商业化的产品多属于近内存计算范畴。无论是哪种其核心优势都在于极致的内存带宽利用率和能效比。对于解码阶段这种“数据搬运量远大于计算量”的负载PIM理论上可以带来数量级的性能提升和能耗降低。4. 商业产品落地PIM从论文走向货架理论很美好但硬件领域能量产才是硬道理。令人兴奋的是PIM已经不再是实验室的玩具领先的存储巨头已经将其推向了市场。4.1 SK海力士AiMSK海力士的“内存加速器”是目前最成熟的商用PIM产品之一。基础基于成熟的GDDR6内存技术。形态以加速卡AiMX卡的形式出货可以直接插入服务器。核心在每个内存Bank存储库旁集成了专用的计算单元专门优化用于执行GEMV矩阵-向量乘操作。现状已经部署在一些数据中心的生产环境中用于加速特定的AI推理工作负载。这证明了PIM在架构可行性和商业可行性上迈出了关键一步。4.2 三星LPDDR5X-PIM三星在2026年世界移动通信大会上发布的LPDDR5X-PIM则将战火烧到了移动和边缘侧。定位针对智能手机、平板、物联网设备等边缘AI设备。优势在标准LPDDR5X内存中集成计算功能无需额外的专用AI加速芯片就能大幅提升设备端AI推理的能效。行业预估其能效比传统“内存独立NPU”的方案有数倍的提升。意义这预示着PIM技术将首先在功耗敏感的边缘场景大规模普及让手机运行更复杂的端侧大模型成为可能。4.3 未来之星HBM4与逻辑芯片集成这可能是对GPU架构冲击最大的一步。JEDEC固态技术协会定义的下一代HBM4标准明确支持在内存堆栈中集成一个“逻辑芯片”。这个芯片不再是简单的内存控制器而可以是一个功能强大的可编程计算单元。角色转变HBM堆栈从一个被动的高速数据仓库转变为一个主动的协处理器。产业动态三星和SK海力士都宣布了相关计划目标是从2026年底开始量产。业界普遍猜测英伟达的下一代“Rubin”架构GPU极有可能采用集成PIM功能的HBM4内存。潜力这将实现最极致的“近内存计算”GPU核心可以将解码这类内存密集型任务直接卸载给HBM栈内的逻辑芯片处理实现异构计算的无缝协同。实操心得关注这些存储巨头的动向比单纯看GPU公司的发布会更有前瞻性。AI硬件竞赛的下半场很可能是在内存里打响的。对于开发者而言这意味着未来我们编程时可能需要考虑数据是放在“GPU内存”还是“PIM内存”并为其分配合适的计算任务。5. PIM如何重塑LLM推理架构有了硬件怎么用学术界已经提出了具体的架构方案让我们看到PIM并非简单替换而是深度融合。5.1 HPIM异构存内计算架构一篇2025年的论文arXiv:2509.12993提出了“异构PIM”架构思路非常巧妙。它认为应该根据内存层级的不同特性来部署PIM。SRAM-PIM利用SRAM极低的访问延迟。将其置于类似GPU L2缓存的位置用于处理对延迟极度敏感的操作比如注意力评分Attention Score的计算。这部分计算量不大但要求响应极快。HBM-PIM利用HBM的超高带宽和大容量。将其作为主存和KV Cache的存储地并负责执行KV Cache相关的矩阵-向量乘法。这部分数据量大需要高带宽。并行执行关键创新在于SRAM-PIM和HBM-PIM可以并行工作。在自回归解码的每一步当SRAM-PIM在计算当前token的注意力分数时HBM-PIM可以同时准备下一步所需的KV数据或执行其他计算。这打破了传统串行执行的依赖进一步压榨硬件潜力。这种架构描绘了一个愿景未来的计算芯片从高速缓存到主存每一级都具备一定的处理能力形成一个层次化的计算网络。5.2 PAM跨越内存层级的处理另一篇2026年的论文arXiv:2602.11521则思考得更远提出了“跨内存层级处理”的概念。对于超长上下文如100K token的模型整个模型参数和KV Cache可能无法全部放入昂贵的HBM中。数据温度分层HBM-PIM处理“热数据”即最频繁访问的参数和KV Cache部分。DRAM-PIM处理“温数据”访问频率稍低的部分。SSD-PIM是的论文甚至设想了存内计算的SSD处理“冷数据”即很少被访问但必须在线的大容量数据。优化数据放置系统根据数据的访问频率和模式动态地将计算任务调度到最合适的PIM层级上执行。现实意义这为在有限显存比如我们常用的8GB、12GB消费卡上运行超大模型提供了新的思路。不再是简单粗暴地将不活跃的数据“卸载”到慢速的系统内存或硬盘而是让这些低速存储也具备一定的计算能力从而在整体上实现可接受的性能。这比传统的“CPU Offloading”方案在能效和延迟上可能有巨大优势。6. PIM的三重挑战为何GPU依然不可替代尽管PIM前景光明但如果我们现在就宣布GPU时代结束那无疑是过于乐观了。PIM面临三大根本性挑战决定了在未来很长一段时间内GPU仍是AI计算特别是训练领域的绝对核心。6.1 训练是GPU不可动摇的堡垒LLM的训练过程和推理的解码阶段有本质不同。计算特征训练的核心是矩阵-矩阵乘法计算密度极高算术强度轻松超过100 FLOP/byte。这是一个纯粹的计算密集型任务。硬件需求需要GPU提供的数千个高度并行、高频率的CUDA核心以及巨大的片上缓存和寄存器文件来满足海量线程的并发需求。PIM的短板当前和可预见的PIM设计主要优化的是矩阵-向量乘法。其内部的计算单元规模、精度支持训练需要FP32/BF16高精度、以及执行复杂控制流和梯度计算的能力与GPU的通用计算核心相比有数量级的差距。让PIM去干训练的活就像让一群擅长快速冲刺的短跑运动员去跑马拉松完全不合适。所以PIM的优势窗口非常明确仅限推理且主要是推理中的解码阶段。训练和推理的预填充阶段依然是GPU的天下。6.2 不成熟的软件生态是最大拦路虎硬件易造生态难建。这是所有新兴计算架构面临的共同难题。GPU的护城河CUDA。经过超过15年的发展CUDA构建了从底层驱动、编译器NVCC、到高级库cuDNN, cuBLAS、再到深度学习框架PyTorch, TensorFlow的完整、成熟、稳定的软件栈。开发者几乎无需关心硬件细节就能高效利用GPU。PIM的现状目前还处于“石器时代”。各家厂商SK海力士、三星提供的是各自为政的专用SDK。没有统一的编程模型没有框架层的集成。要使用PIM开发者可能需要手动管理数据在PIM内存和传统内存之间的放置显式地调用特定的API来启动PIM计算。这对于广大AI应用开发者来说门槛太高成本巨大。生态差距GPU背后是数百万开发者、海量的开源项目和经过千锤百炼的算法实现。PIM的开发者社区几乎从零开始。硬件没有软件赋能就是一堆硅片。PIM迫切需要自己的“CUDA时刻”——一个被行业广泛接受的统一编程接口和丰富的软件工具链。6.3 成本与性价比的现实考量在芯片行业任何新功能都意味着成本的增加。制造成本在内存芯片中集成计算单元会占用原本用于存储单元的面积降低每片晶圆能产出的内存容量即良率可能受影响。同时设计、测试的复杂度也大幅增加。据行业分析支持PIM的HBM成本可能比标准HBM高出50%甚至更多。性价比模型PIM的价值在于节省系统总功耗和提升能效。在数据中心规模下电费是运营成本的大头。如果使用PIM节省的电费在1-2年内能覆盖其带来的硬件溢价那么数据中心运营商就有动力采购。但对于个人用户或中小型企业电费成本不敏感为可能用不到的性能提升支付高昂溢价显然不划算。市场定位因此PIM将首先在超大规模数据中心和高端移动设备对能效极度敏感中落地。消费级显卡集成PIM功能至少还需要几代产品的时间来摊薄成本、验证需求。7. 对普通开发者和用户的现实影响那么作为一个使用RTX 4060或类似消费级显卡的开发者、研究者或爱好者PIM对我们意味着什么短期内可能不如我们期待的那么多。7.1 消费级PIM的时间表坦诚地说能够让我们直接购买和使用的、搭载PIM技术的消费级显卡可能还有3到5年的路要走。当前产品SK海力士AiM是数据中心产品不零售。三星LPDDR5X-PIM面向手机不会直接出现在PC DIY市场。未来展望预计在2027-2028年随着HBM4在高端GPU如RTX 6090上的应用我们可能会看到集成基础PIM功能的显卡。但英伟达是否会将此功能开放给消费级市场还是仅用于专业计算卡仍是未知数。即使开放初期的应用支持和性能提升可能也比较有限。7.2 当前更实际的优化方案在等待PIM普及的日子里我们并非无事可做。以下几种方案是目前更触手可及的优化手段选择更高带宽的GPU这是最直接的方法。下一代GDDR7显存预计将带来接近1.8 TB/s的带宽能直接缓解解码阶段的瓶颈。对于预算充足的用户购买显存带宽更大的显卡永远是提升推理速度的有效投资。采用混合专家模型MoE模型如Mixtral在推理时每次只激活部分参数显著减少了每一解码步需要加载的数据量从而降低了对内存带宽的压力。这是一种在算法层面“瘦身”的巧妙方法。使用推测解码这是一种“用计算换带宽”的投机策略。用一个快速的小模型草稿模型预先生成多个候选token然后用大模型验证模型一次性并行验证。如果验证通过就相当于用一个带宽密集型的操作大模型验证一批token替代了多个串行的带宽密集型操作自回归生成每个token提高了带宽的有效利用率。7.3 间接收益更便宜的云API虽然我们个人用不上PIM硬件但我们可以享受它带来的红利。当数据中心大规模采用PIM后能效提升服务器耗电降低运营成本下降。成本传导这部分节省的成本最终会体现在云服务商如AWS, Azure, OpenAI的API定价上。我们调用GPT-5或Claude-4的API时每千token的费用可能会变得更低。PIM的普及最终会让所有AI服务的用户受益。8. 结论重新划定的计算边界所以回到最初那个激动人心的问题如果内存能计算GPU会消亡吗我的结论是不会消亡但它的角色和势力范围将被重新定义。当前的边界是清晰的GPU 训练 推理全部而内存只负责被动存储。未来的边界将变得模糊和专业化GPU 训练 推理预填充计算密集型任务PIM 推理解码内存带宽密集型任务而内存本身则升级为“存储计算”的复合体。这种分工协作的意义是深远的解决GPU闲置问题解码任务被卸载到PIM后GPU在推理期间可以更专注于自己擅长的计算密集型任务或者干脆进入低功耗状态系统能效得到极大提升。重塑产业格局一部分原本被英伟达GPU垄断的AI推理市场将转移给三星、SK海力士、美光这样的存储巨头。行业报告已经指出这些存储厂商正在积极研发“下一代AI内存以挑战英伟达”。未来的AI硬件市场将是计算芯片、存储芯片和互联技术共同主导的多元竞争格局。推动软件栈革新为了调度和管理这种异构计算资源新的编程模型、编译器和运行时系统将应运而生。这对于系统软件开发者来说是挑战也是巨大的机遇。最终我们正在见证一场从“计算中心”到“数据中心”的范式转移。内存墙没有被从外部用更宽的“马路”带宽强行撞开而是从内部被瓦解——我们在“数据仓库”里建起了“加工厂”。这股浪潮从数据中心开始终将席卷整个计算产业。对于我们这些身处其中的人来说理解这一趋势提前思考软件和算法如何适应新的硬件范式或许是在下一波技术浪潮中保持领先的关键。在那之前优化你的模型用好手头的GPU并保持关注因为变化的速度可能比我们想象的更快。