告别冯·诺依曼瓶颈:手把手拆解清华团队用eDRAM-LUT做存内计算的芯片设计(附ISSCC论文解读)

发布时间:2026/6/12 2:16:38

告别冯·诺依曼瓶颈:手把手拆解清华团队用eDRAM-LUT做存内计算的芯片设计(附ISSCC论文解读) 清华团队eDRAM-LUT存内计算芯片设计深度解析从架构创新到电路实现当摩尔定律逼近物理极限芯片工程师们开始将目光投向架构层面的突破。存内计算Computing-in-Memory技术正是这场变革中的明星选手——它试图从根本上解决困扰计算系统半个多世纪的内存墙问题。清华大学电子工程系刘勇攀教授团队在ISSCC 2023上发表的这项研究通过将eDRAM与查找表LUT创新性结合为数字存内计算领域带来了令人耳目一新的解决方案。传统冯·诺依曼架构中数据需要在存储单元和计算单元之间来回搬运这种搬运工式的操作消耗了系统60%以上的能量。更糟糕的是随着AI计算对内存带宽需求的爆炸式增长传统架构已经显得力不从心。存内计算技术直接将计算功能嵌入存储阵列就像把厨房建在粮仓里需要做饭时不必来回搬运粮食从根本上减少了数据移动的开销。1. 架构创新CS-DCA双模阵列设计1.1 计算-存储无缝切换机制CS-DCAComputation-Storage Dual-Mode Array架构的精妙之处在于其双模可重构性。就像变形金刚可以根据任务需求在车辆和机器人形态间切换一样这个256×160的eDRAM阵列能够在计算模式CIM和存储模式Memory间动态配置。在CIM模式下阵列变身为高效的矩阵运算引擎。16个独立Bank中的每个eLADeDRAM LUT加法器都存储着预计算的乘积项当输入激活信号到来时系统通过4:16分层解码器快速定位对应的权重组合直接输出累加结果。这种设计特别适合神经网络中频繁出现的乘加运算MAC实现了并行处理16个Bank可同时工作零数据搬运权重常驻内存无需加载确定性延迟LUT查找时间固定切换到存储模式时整个阵列又回归传统eDRAM功能8:256解码器精确控制每个存储单元的读写。这种灵活性使得芯片能够根据工作负载智能分配资源避免传统存内计算架构中常见的资源闲置问题。1.2 eDRAM-LUT的协同优势团队选择eDRAM而非SRAM作为基础存储单元背后有着深刻的工程考量特性3T eDRAM6T SRAM优势比较单元面积0.145μm²0.3μm²面积节省52%存储密度高中更适合大规模阵列静态功耗低较高降低待机能耗工艺兼容性好优秀28nm工艺成熟稳定LUT的引入则巧妙规避了传统数字存内计算中全加器树面积过大的问题。通过预先存储所有可能的乘积和共2^(48)4096种8bit输入组合实际运算时只需一次查找即可得到结果这种空间换时间的策略带来了显著的能效提升。2. 电路级创新eLAD与IMREP设计细节2.1 eLAD电路优化技巧eLADeDRAM LUT Adder是整个架构的计算核心其设计处处体现着工程智慧// eLAD子阵列划分示意 module eLAD ( input [3:0] act, // 4bit激活输入 input [7:0] weight, // 8bit权重输入 output [7:0] sum // 8bit累加输出 ); // 160bit存储划分为16个10bit子阵列 reg [9:0] LUT [0:15]; // 根据激活选择对应子阵列 assign sum LUT[act][7:0] weight; endmodule晶体管级设计上团队采用了三项关键优化eHVT晶体管用于写字线选择器有效抑制漏电流LVT晶体管读取端口使用降低访问延迟动态电压调节根据工作模式调整偏置电压这些措施使得在28nm工艺下芯片能在0.9-1.2V电压范围和400-1100MHz频率间灵活工作峰值能效达到19.7 TOPS/mm²8bit精度。2.2 IMREP刷新机制的创新eDRAM固有的刷新需求是其应用于计算场景的主要障碍。团队提出的IMREPIn-Memory Refresh and Encoding Port机制通过两项创新解决了这个问题注意刷新间隔与温度强相关25°C时为1.3μs60°C时缩短至0.5μs双写回路径设计常规路径用于正常数据更新刷新路径专为保持数据完整性优化动态锁存结构在刷新周期内保持数据稳定支持后台静默刷新不影响前台计算实测显示即使在最严苛的工作条件下1V/60°CIMREP也能保证数据错误率低于10⁻⁹完全满足AI推理的精度要求。3. 性能对比与实测数据3.1 横向基准测试与同类方案相比该设计在多个维度展现出竞争优势图不同电压下的能效表现8bit精度关键指标对比面积效率比SRAM方案提升2.1倍能效比较模拟存内计算提高35%且保持数字精度计算密度10 TOPS/mm²适合边缘计算场景3.2 实际工作负载表现在典型CNN推理任务中芯片展现出以下特性稀疏性适应10%激活稀疏时能效最佳吞吐量稳定1GHz下持续吞吐10TOPS温度适应性内置温度传感器动态调节刷新率测试平台数据显示处理ResNet-18网络时整体能效比传统GPU方案提升8-12倍特别适合智能摄像头、可穿戴设备等功耗敏感场景。4. 工程实践启示与设计取舍4.1 关键设计决策背后的思考在芯片设计过程中团队面临几个重大权衡精度vs能效选择保持全数字精度8bit放弃模拟计算的高能效特性通过架构创新弥补能效差距刷新开销vs存储密度接受eDRAM的刷新需求通过IMREP机制最小化性能影响换取比SRAM高2倍的存储密度灵活性vs效率采用可编程LUT结构牺牲部分晶体管级优化空间换取支持多种神经网络的能力4.2 量产可行性分析虽然研究芯片表现出色但量产还需考虑工艺成熟度28nm HKMG工艺良率控制测试成本存内计算芯片的特殊测试需求生态系统配套编译器工具链开发团队正在与产业伙伴合作计划在下一代AI加速芯片中集成该技术预计可将芯片面积缩小40%功耗降低35%。

相关新闻