
1. 项目概述在嵌入式设备上部署深度学习模型就像试图让一台家用轿车去拉重型卡车——动力和空间都严重不足。模型动辄需要数十亿次乘加运算对内存带宽和计算单元都是巨大考验而嵌入式设备的电池容量、散热条件和芯片面积都极其有限。传统的“精确计算”范式在这里遇到了瓶颈于是“近似计算”这个思路应运而生。它的核心理念很简单既然很多应用尤其是像图像识别、语音处理这类感知任务对计算结果中的微小误差并不敏感那我们何不主动引入一些可控的、可容忍的计算误差来换取能耗、面积和速度上的巨大收益这就像用素描代替超写实油画来快速捕捉人物神态虽然细节少了但核心特征和神韵依然准确而付出的时间和精力却大大降低。过去几年这个领域的研究呈井喷之势各种技术层出不穷。但问题也随之而来对于一个刚入行的工程师或研究者面对海量的论文该如何快速把握技术全貌哪些技术最有效该用什么工具和数据集验证未来的路又在何方这正是我们这篇系统性文献综述SLR要解决的问题。我们系统性地梳理了2019年1月至2025年5月期间发表的51篇核心研究旨在为你绘制一幅清晰的“嵌入式深度学习近似计算”技术地图。本文将带你深入理解从数据、算法到硬件的多层次近似技术剖析主流工具链和硬件平台的选择并最终指向一个更高效、更实用的未来框架。2. 研究范围与方法论界定做文献综述最怕的就是边界模糊最后变成一锅大杂烩。为了确保这次梳理的精准性和可操作性我们在一开始就划定了明确的“战场范围”。2.1 核心研究问题我们的工作围绕八个核心研究问题展开这就像探险前绘制的地图上的八个关键坐标点RQ1在目标时间段内有哪些关于深度学习近似计算的核心研究RQ2在深度学习计算栈的不同抽象层次上具体应用了哪些近似技术RQ3研究者们最常使用哪些图像分类数据集和深度学习模型来验证他们的近似方案RQ4为了实现能效部署大家瞄准了哪些嵌入式硬件平台RQ5跨层近似框架主要优化哪些质量和效率指标RQ6支撑这项研究有哪些现成的工具和框架研究者们又提出了哪些新工具RQ7近似计算在学术界和工业界的全球采纳情况如何RQ8当前面临的主要挑战和研究空白是什么2.2 严格的文献筛选标准为了保证综述的质量我们制定了七条严格的筛选标准一篇文献必须全部满足才能入选主题必须核心关注“深度学习中的近似计算”。近似范围我们聚焦于特定类型的近似。在数据层只关注近似数据表示如量化而非近似数据结构在算法层只关注基于代码优化/计算跳过的技术如剪枝而非近似并行或松弛同步在硬件层只关注门级计算单元如近似乘法器的近似而非晶体管级或内存子系统近似。深度学习任务仅限计算机视觉领域的图像分类任务且必须是监督学习。这排除了目标检测、语音识别等其他任务以及无监督、强化学习等其他范式。研究类型必须是提出具体技术、框架或原型并进行实验验证的实证研究排除纯综述或理论探讨文章。发表时间2019年1月至2025年5月。出版来源仅从IEEE、ACM、Springer、Elsevier、MDPI这五个权威学术数据库的同行评议期刊和会议中筛选。验证充分性必须有基于基准数据集和模型的实验验证不能只是理论描述。通过这套组合拳我们从最初检索到的2447篇文献中最终精炼出51篇最具代表性和高质量的研究作为分析基础。3. 近似计算技术全景图从数据到硬件的多层次优化近似计算不是一个“一招鲜”的技术而是一个贯穿整个计算栈的体系化方法。根据技术作用的不同层次我们将现有研究分为四大类。3.1 数据层近似给数据“瘦身”数据层近似的核心思想是在不显著影响模型精度的前提下减少需要处理和存储的数据量。这就像是给高清照片进行有损压缩只要压缩得当人眼几乎看不出区别但文件体积却大幅减小。3.1.1 主要技术手段量化与精度放松这是目前最主流、最成熟的数据层近似技术。其本质是降低数据表示的比特宽度。例如将训练好的模型权重和激活值从32位浮点数转换为8位定点数后训练量化或者在训练过程中就模拟低精度计算量化感知训练。一篇研究甚至探索了使用8位POSIT数格式进行量化在特定硬件上能获得更好的动态范围与精度权衡。数据采样并非所有训练数据都对模型收敛有同等贡献。BlinkML等研究通过智能采样在可控的误差范围内选择最具代表性的数据子集进行训练从而大幅减少计算量。数据/模型压缩利用深度压缩编码如DeepCABAC等技术对模型权重进行高效压缩在推理时再解压。有研究实现了将VGG-16模型压缩63.6倍而精度损失微乎其微。3.1.2 实操心得与选型建议数据层近似尤其是量化几乎是嵌入式部署的“标配”第一步。因为它不改变模型结构实现相对简单且能直接减少内存占用和带宽压力。我的经验是首选后训练量化对于大多数已训练好的模型这是最快上手的方案。TensorFlow Lite和PyTorch Mobile都提供了成熟的工具。精度敏感层处理通常网络的第一层输入层和最后一层输出层对量化更敏感。可以尝试对这些层保持较高精度如16位而对中间层进行更激进的8位量化。校准是关键后训练量化需要一个有代表性的校准数据集来统计激活值的动态范围。校准集最好能覆盖实际应用中的数据分布否则可能导致精度严重下降。3.2 算法/软件层近似让计算“走捷径”如果说数据层近似是“轻装上阵”那么算法层近似就是“抄近道”。它的目标是通过修改算法本身的执行逻辑跳过不必要的计算。3.2.1 主要技术手段剪枝识别并移除网络中不重要的连接权重或整个滤波器。这就像修剪树木的枝叶去掉冗余部分让主干更清晰。有研究通过几何中值进行滤波器剪枝能有效加速卷积神经网络。稀疏化主动诱导权重矩阵变得稀疏包含大量零值然后利用稀疏矩阵计算库或专用硬件来加速。例如有工作提出了特殊的2:4稀疏模式每4个元素中至少有2个为零非常适合NVIDIA Ampere架构GPU的稀疏张量核心。知识蒸馏用一个庞大、精确的“教师模型”来教导一个轻量级的“学生模型”。学生模型通过学习教师模型的输出分布或中间特征能在参数量大幅减少的情况下达到接近教师的性能。这对于在嵌入式端部署复杂模型非常有效。早期停止在模型训练完全收敛之前就停止防止过拟合。更高级的方法会监控验证集损失预测模型性能不再提升的拐点。迭代精化先用一个快但粗糙的模型得到初始结果然后有选择性地对不确定的部分进行更精细的计算。例如在3D手部姿态估计中可以先快速估计关键点再对置信度低的区域进行迭代优化。3.2.2 避坑指南算法层改动需要更谨慎因为可能破坏模型原有的表达能力。剪枝后的微调必不可少剪枝会改变网络结构必须用训练数据对剪枝后的模型进行微调Fine-tuning以恢复部分精度。微调的epoch数不需要像原始训练那么多但学习率要设置得更小。结构化剪枝 vs. 非结构化剪枝非结构化剪枝剪掉单个权重能获得更高的压缩率但产生的随机稀疏模式难以在通用硬件上加速。结构化剪枝剪掉整个滤波器或通道虽然压缩率低一些但能直接得到更小的稠密网络加速效果更直接。嵌入式部署通常优先考虑结构化剪枝。知识蒸馏的“温度”参数在蒸馏过程中使用一个“温度”参数来平滑教师模型的输出概率分布使学生能学到类别间更丰富的关系。这个参数需要调优温度太高或太低都会影响效果。3.3 硬件/电路层近似改造计算“发动机”这是最底层的近似直接对执行计算的物理单元——算术逻辑单元进行改造用更快、更省电但可能出错的近似计算单元替换掉精确但昂贵的标准单元。3.3.1 主要技术手段硬件层近似主要围绕深度学习中最核心、最耗能的三种运算单元展开近似乘法器这是绝对的研究热点。因为乘法和乘累加运算在卷积和全连接层中无处不在。研究包括设计近似Booth编码器、使用对数乘法器、或利用笛卡尔遗传编程自动设计近似乘法器电路。有工作显示为MLP和LeNet设计专用近似乘法器在MNIST和SVHN数据集上能实现最高91%的功耗降低而精度损失小于2.8%。近似加法器例如有研究提出了一种“仅生成加法器”在LeNet模型和MNIST数据集上实现了99.6%的准确率相比精确设计的99.8%同时功耗延迟积降低了21%。近似乘累加单元将乘法和加法作为一个整体进行近似优化。有研究提出了“确定性近似MAC”和“修正的确定性近似MAC”设计在CIFAR-10数据集上为LeNet实现了73.35%的准确率而精确MAC为74.43%。3.3.2 设计权衡与实现考量硬件层近似能带来最直接的能效提升但设计复杂度也最高。误差可控性好的近似电路设计不是简单地“偷工减料”而是有目的地引入系统性、有界的误差。例如让乘法结果总是略低于或略高于真实值并且误差范围可知。随机性、无界的误差对深度学习模型是灾难性的。与算法协同设计最好的效果来自硬件与算法的协同。例如知道网络中哪些层对误差更不敏感通常靠后的层容忍度更高就可以在这些层使用更激进误差更大但能效更高的近似单元而在敏感层使用保守或精确单元。EDA工具支持设计出的近似电路需要用Synopsys Design Compiler、Cadence Genus等专业电子设计自动化工具进行综合、布局布线并评估其功耗、面积和时序。还需要用QuestaSim等工具进行RTL仿真验证功能正确性。3.4 跨层近似协同作战的威力单独使用某一层的近似技术固然有效但真正的“王牌”是跨层协同优化。这好比赛车改装单独优化发动机、车身轻量化和轮胎都能提升性能但三者协同设计才能发挥最大威力。3.4.1 典型框架与思路跨层框架的核心思想是在不同层次联合寻找最优的近似配置组合。ALWANN框架这是一个代表性工作。它首先在算法层对网络进行权重搜索和剪枝然后在硬件层从一个开源近似单元库中为网络的不同层自动选择最合适的近似乘法器。在ResNet-50的卷积层上该框架实现了30%的能耗节省而精度损失仅为0.6%。MARLIN框架同样是一个协同设计框架。它在数据层使用INT8量化在硬件层则提供了一个具有256种近似级别的可配置乘法器库并根据网络各层的误差容忍度分配合适的近似乘法器。对于ResNet-56其乘法能耗降低了23%精度下降约1%。3.4.2 跨层设计的挑战与前景尽管潜力巨大但在我们综述的51篇研究中跨层研究仅有11篇约占22%。这主要是因为其设计和优化的复杂度呈指数级增长。你需要同时考虑用什么量化策略剪枝多少比例每层用哪种近似乘法器这构成了一个巨大的设计空间。 然而其收益也是单层优化无法比拟的。未来的趋势必然是走向更智能的跨层协同例如利用强化学习或贝叶斯优化来自动搜索这个巨大的设计空间找到在给定精度损失约束下的最优能效配置。4. 技术生态深度解析数据集、模型与硬件平台了解了技术本身我们还需要知道研究者们用什么来验证这些技术以及他们瞄准的落地平台是什么。4.1 基准数据集模型的“考场”数据集是衡量任何近似技术效果的试金石。我们统计了研究中使用的11个主流图像分类数据集。CIFAR-10 MNIST最受欢迎的“入门考场”。CIFAR-10包含10类6万张32x32彩色图像MNIST包含10类手写数字灰度图。它们规模适中训练和测试速度快非常适合算法原型验证和快速迭代。在我们的统计中CIFAR-10的使用占比高达30%MNIST为25%。ImageNet这是“终极考场”。拥有超过1000个类别、140万张训练图像其规模和多样性对模型和近似技术的鲁棒性是严峻考验。在ImageNet上表现良好的技术其有效性更有说服力。它占据了22%的使用比例。其他数据集如街景门牌号数据集、德国交通标志数据集等则用于特定领域或补充验证。注意在选择数据集进行评估时务必考虑其与目标应用场景的相关性。在MNIST上效果惊艳的技术在复杂的真实世界图像任务中可能会失效。建议采用“由易到难”的评估策略。4.2 目标深度学习模型谁的“负担”最重我们梳理了26种被用于近似计算研究的经典模型。一个明显的趋势是模型越复杂、计算量越大就越受研究者关注。ResNet系列是绝对焦点在所有近似实例中ResNet及其变体如ResNet-18, 34, 50, 101占据了44%的比例。原因在于其残差连接结构使得网络可以做得非常深如ResNet-152计算强度极高因此通过近似计算来“减负”的收益潜力也最大。其中ResNet-50又是被研究最多的单个模型。经典轻量型模型关注度较低像MobileNet、SqueezeNet这类本身就是为了嵌入式设备设计的轻量模型其计算量已经过优化因此通过近似计算进一步压缩的边际收益相对较小相关研究也较少。4.3 目标硬件平台落地何处理论研究最终要落到硬件上。我们分析了这些近似技术瞄准的实现平台。ASIC主导高达84%的研究选择专用集成电路作为目标平台。原因很直接ASIC能为特定法提供极致的能效和性能。在工艺节点上45nm和65nm是主流选择因为它们提供了性能、功耗和制造成本的良好平衡。也有前沿研究探索了7nm FinFET等先进工艺。FPGA的灵活性约有13%的研究基于FPGA。FPGA的优势在于可重构性非常适合算法尚未完全固定、需要快速原型验证的阶段。研究者可以使用Xilinx Vivado或Intel Quartus II等工具进行开发。工具链依赖无论是ASIC还是FPGA都严重依赖成熟的EDA工具链。Synopsys Design Compiler是ASIC综合的行业标准而PyTorch和TensorFlow则是模型训练和算法验证的首选框架。一个重要的发现是Verilog在硬件描述语言中占绝对主导因其与主流EDA工具链的集成度更高。5. 评估体系与工具生态现状如何评判一个近似技术的优劣目前社区缺乏统一的标准但这恰恰是工程实践中必须面对的问题。5.1 质量与效率的权衡报告了什么我们深入分析了跨层近似研究的评估指标因为它们通常报告得最全面。优化目标主要集中在两个维度质量几乎全部研究都报告了精度或精度损失。这是近似计算的底线——性能下降必须在可接受范围内。效率主要包括功耗芯片运行时的动态功耗单位通常是瓦特或毫瓦。面积芯片的硅片面积单位是平方毫米或等效门数。能耗完成一次推理或一个任务所消耗的总能量功耗×时间单位是焦耳或毫焦。延迟/吞吐量处理单张图片所需的时间或单位时间能处理的图片数量。一个突出的问题是评估标准不统一。有的研究对比精确基线有的对比其他近似方案有的在ASIC上评估面积功耗有的在FPGA上评估延迟和资源利用率。这使得不同工作之间的直接横向比较非常困难。建立一套公认的基准测试套件包括标准模型、数据集、评估指标和基线是本领域亟待推动的工作。5.2 支撑工具与框架研究者用什么“兵器”工欲善其事必先利其器。我们总结了研究中使用的36种现有工具和框架并将其分为七大类EDA/硬件综合工具Synopsys Design Compiler是ASIC综合的绝对王者。Cadence Genus也占有一席之地。对于FPGA则是Xilinx Vivado和Intel Quartus II的天下。硬件描述语言Verilog以压倒性优势成为硬件设计描述的首选。深度学习框架PyTorch和TensorFlow是两大主流。PyTorch因其动态图和易用性在研究社区更受欢迎而TensorFlow Lite则在移动和嵌入式端部署方面生态成熟。框架扩展这是连接算法和硬件的桥梁。例如AdaPT可以在PyTorch中无缝模拟近似乘法器。TorchApprox支持对来自EvoApproxLib等开源库的近似乘法器进行高通量仿真。ProxSim为TensorFlow提供了一个基于GPU的模拟框架用于在近似条件下进行推理和重训练。近似组件库EvoApproxLib是一个重要的开源近似算术单元库包含大量设计好的近似加法器、乘法器等研究者可以直接集成无需从零设计。GPU运行时库如NVIDIA的CUDA和cuDNN用于在GPU上加速训练和推理过程的模拟验证。环境/系统级工具如Conda用于环境管理Apache Spark用于分布式数据处理。5.3 一个亟待改善的现状代码开源我们对研究中提出的新工具、框架和加速器进行了统计发现一个严峻问题绝大多数约2/3的研究成果没有公开代码或具体实现。像AxDNN、ARA、CANN等被多次引用的框架其源代码均无法获取。这严重阻碍了技术的复现、验证和后续发展。我们强烈呼吁研究社区遵循可复现研究的原则将代码开源。这不仅有利于建立公平的比较基准也能加速整个领域的工程化进程。6. 当前挑战与未来研究方向尽管近似计算前景广阔但走向大规模成熟应用仍面临几座必须翻越的“大山”。6.1 核心挑战剖析误差弹性分析与设计空间探索的自动化当前很多研究依赖于“深度学习天然容忍误差”这一经验假设但缺乏对模型不同部分误差容忍度的定量、系统性分析。如何自动、准确地度量网络中各层、各算子对近似误差的敏感度在此基础上如何从海量的近似技术组合设计空间中自动搜索出在给定精度损失约束下能效最优的配置这需要结合仿真、分析模型和优化算法如多目标遗传算法NSGA-II来解决。跨层协同优化的复杂性如前所述跨层优化潜力最大但设计空间巨大手动调优几乎不可能。需要开发更智能的自动化协同设计框架。安全与可靠性的新隐患近似计算在提升能效的同时可能引入新的安全漏洞和可靠性问题。攻击者可能针对近似模块与精确模块的边界进行攻击近似引入的固有误差也可能与硬件老化、辐射等引起的故障相互叠加导致系统失效。未来的近似计算框架必须是安全与可靠性感知的在设计之初就将这些因素纳入考量。6.2 研究空白与未来框架构想基于对现有研究的分析我们指出了七个主要的研究空白并由此提出了一个名为“CAES Prox”的概念性跨层近似深度学习框架构想。该框架旨在构建一个端到端、自动化、且考虑安全可靠的协同优化流程其核心工作流分为五步硬件感知的神经架构搜索输入用户约束如最大功耗、最小精度和数据集自动搜索出一个在精确计算下就已经是高效的基础网络结构。误差弹性分析与设计空间探索对找到的基础网络进行剖析定量分析其各层、各计算对误差的容忍度并从近似单元库中筛选出候选的近似组件。数据层近似根据上一步的分析对网络进行低、中、高三种激进程度的量化等数据层近似产生三个变体。算法层近似对上一步得到的每个数据近似变体再施加低、中、高三种程度的算法层近似如剪枝产生更多的变体组合并筛选出帕累托最优的几个候选。硬件层近似将筛选出的候选网络中的精确计算单元替换为第二步中选出的最优近似硬件单元最终生成一个面向特定资源约束硬件平台的、近似最优的深度学习模型实现。这个框架的愿景是解决现有研究空白支持全栈近似、集成自动化NAS和DSE、内置安全可靠性评估并且最重要的是计划以开源形式发布以促进社区协作与创新。7. 总结与个人体会回顾这项系统性综述工作我们可以清晰地看到近似计算已不再是学术界的“玩具”而是正在成为嵌入式深度学习落地不可或缺的工程技术。从主流的量化、剪枝到电路级的近似乘法器设计再到初露锋芒的跨层协同优化技术栈正在不断丰富和深化。我个人在跟踪和复现这些工作的过程中有几点深刻的体会首先没有“银弹”。量化对存储和带宽敏感型应用立竿见影但对计算密集型层近似硬件单元可能收益更大。在实际项目中往往需要“组合拳”。其次评估务必严谨。一定要在目标数据集和目标硬件平台或精确的仿真模型上进行评估。在CIFAR-10上节省50%能耗不代表在你自己项目的医学图像上也能如此甚至可能因误差分布不同而导致精度崩盘。最后工具链的成熟度是关键瓶颈。目前从算法模拟到硬件实现工具链的割裂感依然很强。像MARLIN、ALWANN这样试图打通全流程的框架非常宝贵。业界亟需更成熟、更易用的近似计算-深度学习协同设计工具平台。这项综述揭示了一个充满活力的领域它正从分散的技术点走向系统化的工程体系。对于嵌入式AI的开发者而言理解并善用近似计算将是突破功耗墙、将更智能的算法带入千家万户终端设备的关键技能。未来的竞争或许不仅在于谁的算法更精准更在于谁能在有限的瓦特和毫米之间挤出更多的智能。