告别冯·诺依曼瓶颈：手把手拆解清华团队用eDRAM-LUT做存内计算的芯片设计（附ISSCC论文解读）-尧图网站设计

清华团队eDRAM-LUT存内计算芯片设计深度解析从架构创新到电路实现当摩尔定律逼近物理极限芯片工程师们开始将目光投向架构层面的突破。存内计算Computing-in-Memory技术正是这场变革中的明星选手——它试图从根本上解决困扰计算系统半个多世纪的内存墙问题。清华大学电子工程系刘勇攀教授团队在ISSCC 2023上发表的这项研究通过将eDRAM与查找表LUT创新性结合为数字存内计算领域带来了令人耳目一新的解决方案。传统冯·诺依曼架构中数据需要在存储单元和计算单元之间来回搬运这种搬运工式的操作消耗了系统60%以上的能量。更糟糕的是随着AI计算对内存带宽需求的爆炸式增长传统架构已经显得力不从心。存内计算技术直接将计算功能嵌入存储阵列就像把厨房建在粮仓里需要做饭时不必来回搬运粮食从根本上减少了数据移动的开销。1. 架构创新CS-DCA双模阵列设计1.1 计算-存储无缝切换机制CS-DCAComputation-Storage Dual-Mode Array架构的精妙之处在于其双模可重构性。就像变形金刚可以根据任务需求在车辆和机器人形态间切换一样这个256×160的eDRAM阵列能够在计算模式CIM和存储模式Memory间动态配置。在CIM模式下阵列变身为高效的矩阵运算引擎。16个独立Bank中的每个eLADeDRAM LUT加法器都存储着预计算的乘积项当输入激活信号到来时系统通过4:16分层解码器快速定位对应的权重组合直接输出累加结果。这种设计特别适合神经网络中频繁出现的乘加运算MAC实现了并行处理16个Bank可同时工作零数据搬运权重常驻内存无需加载确定性延迟LUT查找时间固定切换到存储模式时整个阵列又回归传统eDRAM功能8:256解码器精确控制每个存储单元的读写。这种灵活性使得芯片能够根据工作负载智能分配资源避免传统存内计算架构中常见的资源闲置问题。1.2 eDRAM-LUT的协同优势团队选择eDRAM而非SRAM作为基础存储单元背后有着深刻的工程考量特性3T eDRAM6T SRAM优势比较单元面积0.145μm²0.3μm²面积节省52%存储密度高中更适合大规模阵列静态功耗低较高降低待机能耗工艺兼容性好优秀28nm工艺成熟稳定LUT的引入则巧妙规避了传统数字存内计算中全加器树面积过大的问题。通过预先存储所有可能的乘积和共2^(48)4096种8bit输入组合实际运算时只需一次查找即可得到结果这种空间换时间的策略带来了显著的能效提升。2. 电路级创新eLAD与IMREP设计细节2.1 eLAD电路优化技巧eLADeDRAM LUT Adder是整个架构的计算核心其设计处处体现着工程智慧// eLAD子阵列划分示意 module eLAD ( input [3:0] act, // 4bit激活输入 input [7:0] weight, // 8bit权重输入 output [7:0] sum // 8bit累加输出 ); // 160bit存储划分为16个10bit子阵列 reg [9:0] LUT [0:15]; // 根据激活选择对应子阵列 assign sum LUT[act][7:0] weight; endmodule晶体管级设计上团队采用了三项关键优化eHVT晶体管用于写字线选择器有效抑制漏电流LVT晶体管读取端口使用降低访问延迟动态电压调节根据工作模式调整偏置电压这些措施使得在28nm工艺下芯片能在0.9-1.2V电压范围和400-1100MHz频率间灵活工作峰值能效达到19.7 TOPS/mm²8bit精度。2.2 IMREP刷新机制的创新eDRAM固有的刷新需求是其应用于计算场景的主要障碍。团队提出的IMREPIn-Memory Refresh and Encoding Port机制通过两项创新解决了这个问题注意刷新间隔与温度强相关25°C时为1.3μs60°C时缩短至0.5μs双写回路径设计常规路径用于正常数据更新刷新路径专为保持数据完整性优化动态锁存结构在刷新周期内保持数据稳定支持后台静默刷新不影响前台计算实测显示即使在最严苛的工作条件下1V/60°CIMREP也能保证数据错误率低于10⁻⁹完全满足AI推理的精度要求。3. 性能对比与实测数据3.1 横向基准测试与同类方案相比该设计在多个维度展现出竞争优势图不同电压下的能效表现8bit精度关键指标对比面积效率比SRAM方案提升2.1倍能效比较模拟存内计算提高35%且保持数字精度计算密度10 TOPS/mm²适合边缘计算场景3.2 实际工作负载表现在典型CNN推理任务中芯片展现出以下特性稀疏性适应10%激活稀疏时能效最佳吞吐量稳定1GHz下持续吞吐10TOPS温度适应性内置温度传感器动态调节刷新率测试平台数据显示处理ResNet-18网络时整体能效比传统GPU方案提升8-12倍特别适合智能摄像头、可穿戴设备等功耗敏感场景。4. 工程实践启示与设计取舍4.1 关键设计决策背后的思考在芯片设计过程中团队面临几个重大权衡精度vs能效选择保持全数字精度8bit放弃模拟计算的高能效特性通过架构创新弥补能效差距刷新开销vs存储密度接受eDRAM的刷新需求通过IMREP机制最小化性能影响换取比SRAM高2倍的存储密度灵活性vs效率采用可编程LUT结构牺牲部分晶体管级优化空间换取支持多种神经网络的能力4.2 量产可行性分析虽然研究芯片表现出色但量产还需考虑工艺成熟度28nm HKMG工艺良率控制测试成本存内计算芯片的特殊测试需求生态系统配套编译器工具链开发团队正在与产业伙伴合作计划在下一代AI加速芯片中集成该技术预计可将芯片面积缩小40%功耗降低35%。

告别冯·诺依曼瓶颈：手把手拆解清华团队用eDRAM-LUT做存内计算的芯片设计（附ISSCC论文解读）

相关新闻

Fire Dynamics Simulator：火灾动力学模拟的核心引擎与实战应用

精准拓客新范式：号码核验行业的痛点破解与技术赋能之路，氪迹科技法人号码核验系统，阶梯式价格

告别黑盒：用Python手把手解析SMPP协议PDU，从抓包到解码一条龙

深度GTO解析起手牌范围基础：进阶玩家的AI陪练模拟对局指南

ZBrush入门指南：从数字雕塑思维到核心功能实战

《守望先锋2》治疗资源分配博弈：从抱怨到协同的实战指南

快速了解C语言基础（10）（二维函数）

UiPath定时任务全攻略：从Windows计划任务到Orchestrator专业调度

Docker Desktop 内置 K8s 从入门到实战：部署你的第一个 Nginx 集群

[具身智能-181]：PC+服务器+具身机器人：构建具身智能从仿真到量产的闭环迭代混合架构

[具身智能-181]：大分布式通信模型对比：看懂为什么 DDS 是 ROS2 底层通信最优解

完整指南：如何让2008-2017年老款Mac运行最新macOS系统

MATLAB xcorr函数详解：从互相关原理到四大实战应用

最大流算法详解：从水管网络到Ford-Fulkerson与Dinic实战

基于Springboot的企业门户网站(源码+LW+调试文档+讲解)

无损视频剪辑终极指南：如何实现快速高效的多媒体处理

HarmonyOS 应用开发《掌上英语》第81篇: 智能体卡片：为英语学习 App 打造桌面级学习助手

AI 智能电动窗帘电机智能功率覆盖电机驱动、控制逻辑、电源管理的完整选型方案