MINOTAUR:基于Posit数据类型的边缘Transformer推理与训练加速器

发布时间:2026/7/5 5:34:28

MINOTAUR:基于Posit数据类型的边缘Transformer推理与训练加速器 MINOTAUR: A Posit-Based 0.42–0.50-TOPS/W Edge Transformer Inference and Training Accelerator 阅读总结中文标题MINOTAUR基于Posit数据类型的边缘Transformer推理与训练加速器作者Kartik Prabhu, Robert M. Radway, Jeffrey Yu, Kai Bartolone, Massimo Giordano, Fabian Peddinghaus, Yonatan Urman, Win-San Khwa, Yu-Der Chih, Meng-Fan Chang, Subhashish Mitra, Priyanka Raina发表IEEE JSSC, 2025工艺TSMC 40nm ULP CMOS with RRAM芯片面积65.61 mm²SRAM2 MBRRAM12 MB摘要MINOTAUR是首款基于Posit 8-bit数据类型、采用全片上存储器架构、支持Transformer模型推理与微调的边缘SoC。芯片集成12 MB RRAM阻变存储器与2 MB SRAM利用Posit格式的动态范围与精度分布优势在无需复杂缩放因子的条件下实现高精度推理与训练。采用低秩适应LoRA将可训练参数量减少98%结合激活检查点与损失缩放技术使片上微调精度达到离线训练的98.3%偏差1.7%。通过工作负载感知的RRAM功率门控推理能耗降低30%。芯片实现ResNet-18推理能耗8.1 mJMobileBERTTINY推理能耗8.2 mJ能效达0.42–0.50 TOPS/W。核心专有名词解析术语缩写定义面向跨专业读者Posit—一种替代IEEE浮点数的数值格式具有可变长度字段regime、exponent、fraction在相同位宽下提供更高的动态范围与渐变精度tapered precision。渐变精度Tapered PrecisionPosit的核心特性数值越接近±1分数位精度越多数值极大或极小时字段全部用于regime指数牺牲精度换取范围。NN权重服从高斯分布大部分值接近0或±1因此Posit天然适配。Regime字段Regime FieldPosit特有的指数扩展字段由一串连续相同的比特全0或全1组成其游程长度k作为基数为22es的指数极大扩展了数值表示范围。RRAMResistive RAM阻变随机存取存储器非易失性存储器比特密度高于SRAM1T1R vs 6T可集成于CMOS逻辑工艺。缺点是待机功耗高、写入耐久性有限约4万次。LoRALow-Rank Adaptation低秩适应在预训练权重旁注入低秩矩阵A×B秩r16仅训练这些少量参数原始权重冻结。可训练参数量减少98%避免对RRAM的频繁写入规避写入耐久性限制。激活检查点Activation Checkpointing训练时前向传播不全存所有中间激活仅存关键层如第0、7、14层的输出反向传播时按需重算其他激活。以额外计算换取内存容量使片上训练成为可能。损失缩放Loss Scaling将损失函数乘以常数因子如1024通过链式法则等比放大所有激活梯度使其落入Posit8的有效表示范围避免梯度下溢。权重更新前再除以该因子。脉动阵列Systolic Array由16×16 PE组成的二维计算阵列数据从西向东流动部分和从北向南流动。权重与输入在PE间流水传递实现高吞吐矩阵乘法。断电门控Power Gating关闭空闲电路块的电源以降低静态功耗。RRAM待机功耗37.6 mW是等容量SRAM的4.8倍必须通过功率门控使空闲RRAM掉电以节省能耗。TileLink—开源SoC片上互连协议连接CPU、加速器、RRAM与SRAM数据位宽128-bit。量化感知训练QAT训练时模拟低精度推理的数值行为含量化误差使模型在部署时适应量化效应避免精度大幅下降。SGDStochastic Gradient Descent随机梯度下降基础训练优化算法利用权重梯度更新参数。LoRA使仅需为28KB适配器参数计算梯度而非全部12M权重。一、研究动机与核心挑战1.1 边缘Transformer部署的三重障碍障碍一计算与存储密度不匹配Transformer模型如BERTBASE含1.1亿参数权重存储约440 MB远超典型边缘设备片上存储容量通常16 MB。依赖片外DRAM导致每次参数访问能耗为片上SRAM的100倍以上。障碍二推理与训练的数据格式割裂推理常用INT8需量化校准复杂训练常用FP16/BF16硬件开销大。两套数据路径增加面积与功耗。障碍三非易失存储的电源管理RRAM虽密度高、非易失、可片上集成但待机功耗远高于SRAM且写入耐久性~4万次与功耗问题严重制约片上微调。1.2 此前方案的局限性技术路线代表工作局限性INT8量化Q8BERT, LLM.int8()需逐张量/逐通道缩放因子增加控制复杂度与额外内存访问部分模型精度无法恢复FP8Micikevicius et al.推理(E4M3)与训练(E5M2)格式不统一需两套硬件通路专用向量单元SpAtten, A³为每个操作softmax、LayerNorm设计独立硬件面积随支持操作数线性增长二、MINOTAUR芯片架构2.1 整体SoC结构12 MB RRAM存储模型权重非易失断电不丢失2 MB SRAM存储中间激活与LoRA适配器参数Posit NN加速器16×16脉动阵列矩阵单元 16宽向量单元64-bit RISC-V Rocket CPU任务调度与配置分布式电源管理单元各存储bank独立功率门控互连128-bit TileLink工作电压数字逻辑0.9VRRAM/SRAM 1.1V。2.2 矩阵单元Matrix Unit16×16脉动阵列输入从西向东流动部分和从北向南流动。每个PE执行Posit8 × Posit8 → Posit16乘加。关键优化Posit解码/编码逻辑从PE内部移至阵列边界PE面积降低1.3倍。PE内权重三缓冲支持输入分块的完全流水线化。可配置数据流支持循环重排loop reordering在SRAM级别、累加缓冲级别、阵列级别均可配置。默认模式下输入通道沿垂直方向展开16通道并行输出通道沿水平方向展开。当输入通道数不足16时如ResNet首层输入仅3通道可额外展开滤波器维度filter dimension保持PE利用率。2.3 向量单元Vector Unit设计原则16宽、4级流水线、带累加与归约引擎。核心创新操作融合而非专用数据路径传统方案为softmax、LayerNorm、GELU等每个操作设计独立硬件面积1.44 mm²。MINOTAUR提取所有操作的数据流图公共子结构将4级流水线配置为通用算术序列面积仅0.675 mm²2.1倍面积节省。Softmax在向量单元上的三趟映射Pass 1归约引擎求输入向量最大值。Pass 2所有元素减去最大值 → 指数近似 → 归约引擎求和。Pass 3中间值乘以总和的倒数 → 输出Posit8。Posit近似函数指数函数利用Posit位操作近似sigmoidMSB取反、右移2位再取倒数减1。e^x近似面积仅为BFloat16实现的1/5.8。倒数简单二补码操作2^N - x面积仅为BFloat16实现的1/1.9。2.4 矩阵-向量融合将GEMM与注意力缩放、残差连接等操作融合不仅减少内存访问更减少Posit16到Posit8的多次量化截断误差。融合后MobileBERTTINY在SST-2上精度从89.6%无融合恢复至89.9%接近BFloat16的90.9%。三、RRAM存储与功率门控策略3.1 RRAM功耗特性实测100MHz, 1.1V模式12 MB RRAM功耗等效12 MB SRAM功耗对比待机Standby37.6 mW7.8 mW估算RRAM是SRAM的4.8倍时钟门控~37 mW—无效功耗主要在模拟宏控制器宏功率门控0.05 mW—RRAM仅为SRAM的1/5RRAM读取能耗0.98 pJ/bitSRAM读取能耗0.23 pJ/bit100MHz即RRAM读能耗为SRAM的4.26倍。3.2 带宽自适应功率门控问题RRAM每bank访问需多周期为达128-bit/cycle带宽需4 bank交叉存取4×模式但大多数NN层实际所需带宽较低。策略支持三种交叉存取模式1×1 bank、2×2 banks、4×4 banks。运行时对每层动态选择满足带宽需求的最小bank数其余bank完全功率门控。ResNet-18和MobileBERTTINY推理中带宽感知BA功率门控相比无优化NO降低25%~30%总推理能耗。四、片上微调技术4.1 LoRA低秩适应在MobileBERTTINY的21个编码器层中对W_q和W_v矩阵注入秩r16的低秩适配器A×B。原始权重冻结于RRAM零RRAM写入规避耐久性限制。适配器参数总量仅28 KB占SRAM可训练参数量从12 M降至约0.24 M减少98%。4.2 损失缩放Loss ScalingPosit8的指数范围有限激活梯度极大概率下溢图12大部分梯度指数-10。将损失乘以常数因子如128/256经链式法则等比放大所有梯度使其落入Posit8有效表示区间。权重更新前除以相同因子恢复正确梯度幅值。4.3 激活检查点Activation Checkpointing反向传播需要前向中间激活如ReLU输入、Softmax归一化前logits。前向传播仅存储第0、7、14层编码器的输入3个张量其他层激活在反向传播时按需重算。内存需求降低60倍以额外计算换取片上可训练能力。4.4 梯度裁剪计算权重梯度张量的L2范数若1则等比例缩放到范数1。防止梯度爆炸稳定训练。综合效果上述技术使所需训练内存容量降低5倍见图10最终MRPC数据集微调精度83.8%与离线BFloat16训练85.5%偏差1.7%。五、实测结果5.1 芯片规格与功耗参数数值总面积65.61 mm²RRAM占比82%SRAM占比8%加速器占比6%矩阵单元5% 向量单元1%工作电压0.9 V逻辑/ 1.1 V存储峰值能效0.50 TOPS/W0.42–0.50 TOPS/W频率100 MHz典型测量条件5.2 推理性能模型参数量任务Posit8精度BF16精度推理能耗能量优化推理延迟延迟优化MobileBERTTINY12MSST-291.2%91.6%8.2 mJ97.7 msMobileBERTTINY12MSQuAD84.186.2——BERTBASE86MSST-291.9%92.5%110 mJ711 msResNet-1812MImageNet70.2%71.5%28.1 mJ72.1 msResNet-5025MImageNet76.8%77.3%27.7 mJ能量优化350 ms延迟优化注推理数据含全模型端到端延迟与能耗含所有层归一化、残差连接、Softmax等辅助操作。5.3 微调性能MobileBERTTINY, MRPC阶段能耗延迟100MHz前向传播12.3 mJ11%185 ms11%检查点重算89.0 mJ78%1349 ms77%反向传播12.7 mJ11%218 ms12%总计1个Batch114 mJ1750 ms精度83.8%vs 离线BFloat16训练85.5%偏差1.7%RRAM写入零次LoRA适配器存储于SRAM5.4 RRAM功率门控效果ResNet-18推理带宽感知BA策略相较无功率门控NO每层选择1×/2×/4×模式中最优项。总推理能耗降低25%~30%。六、对比分析6.1 与SOTA推理加速器对比对比维度MINOTAURKeller ISSCC’23 [17]Tambe ISSCC’23 [16]备注技术节点40 nm5 nm12 nm工艺落后2~3代数据类型Posit84-bit整数向量缩放FP4/FP8混精无缩放因子负担能效0.42–0.50 TOPS/W95.6 TOPS/W18.1 TFLOPS/W因工艺落后不可直接比较片外存储无全片上需片外需片外关键区分Transformer支持推理微调推理推理唯一支持片上微调归一化分析若按工艺节点归一化能效 × 节点尺寸比² × 电压比²MINOTAUR在40nm下可达与先进工艺方案可比的有效能效但全片上存储的优势无法简单量化。6.2 与RRAM边缘AI芯片对比与CHIMERA同团队前作0.92 TOPS、2 MB RRAM相比RRAM容量从2 MB提升至12 MB6×支持BERT级模型完全片上加载。从CNN扩展至TransformerCNN双模型支持。增加向量单元覆盖Softmax/LayerNorm等复杂张量运算。功率门控策略从统一管理升级为带宽感知逐层优化。七、技术总结MINOTAUR通过四项核心技术协同使Transformer推理与微调在40nm边缘芯片上完全片上运行Posit 8-bit数据类型以解码/编码硬件为代价换取无需缩放因子的高精度表示统一推理与训练格式E4M3/E5M2分离问题消失且支持低开销位操作近似指数、倒数。全片上RRAMSRAM存储架构12 MB RRAM存储权重、2 MB SRAM存储激活与适配器。通过带宽感知功率门控将RRAM待机功耗从37.6 mW降至近零使全片上存储方案的能耗可接受。可配置加速器数据流脉动阵列支持循环重排适配不同维度矩阵乘CNN与Transformer共享同一硬件融合型向量单元面积仅为专用方案1/2。LoRA损失缩放激活检查点三重训练优化使可训练参数减少98%、激活存储降低60倍、梯度落入Posit8有效范围最终实现精度损失1.7%的片上微调零RRAM写入规避耐久性限制。本设计证明通过合理的数值格式Posit与非易失存储管理RRAM功率门控的组合可在成熟工艺节点40nm上实现先进Transformer模型的完整片上部署与自适应微调为边缘AI设备摆脱云依赖提供了可行的硅实现路径。

相关新闻