)
AI时期常听到的几种处理器一览粗识*PU。卷入AI 洪流中。处理器全称设计目标核心架构特点擅长任务典型应用场景CPUCentral Processing Unit低延迟、复杂逻辑控制少量大核心、强分支预测、大缓存、乱序执行串行任务、操作系统、数据库、中断处理通用计算机、服务器、嵌入式系统GPUGraphics Processing Unit高吞吐量、大规模数据并行大量小核心、SIMT、流式多处理器、高显存带宽图形渲染、科学计算、矩阵运算游戏、HPC、AI训练早期NPUNeural Processing Unit高能效神经网络推理/训练脉动阵列、大量MAC单元、数据流架构、低精度支持卷积、全连接、激活函数等神经网络层手机AI芯片、智能摄像头、边缘AITPUTensor Processing Unit专门加速TensorFlow/张量运算脉动阵列如128x128、统一缓冲、高带宽片上内存大规模矩阵乘、神经网络训练/推理谷歌云、AlphaGo、BERT等DPUData Processing Unit数据中心基础设施加速多核ARM硬件加速引擎网络、存储、安全网络包处理、虚拟化、存储卸载、加密服务器SmartNIC、云计算、边缘数据中心二、详细区分1. CPU中央处理器核心特点通用、低延迟、控制流强。架构少量高性能核例如4-64核每个核有L1/L2/L3缓存、分支预测、乱序执行。擅长处理随机、分支密集的代码。短板并行度有限处理大规模同质数据时能效低。地位系统的主控其他PU通常作为协处理器或加速器。2. GPU图形处理器核心特点数据并行、吞吐量优先。架构成千上万个简单核心如NVIDIA的CUDA核心分组为SMStreaming Multiprocessor。采用SIMT执行模型用大量线程隐藏内存延迟。进化从固定图形管线变为通用并行计算GPGPU支持CUDA/OpenCL。短板处理单线程任务慢控制逻辑弱。3. NPU神经网络处理器核心特点为神经网络中的卷积、矩阵乘、激活函数做硬件加速。架构核心是脉动阵列Systolic Array 大量MAC单元乘加器。通常不采用冯·诺依曼瓶颈而是数据流动架构数据直接从缓冲区流到MAC阵列。支持权重压缩、稀疏计算、混合精度INT8/INT4。优势极高能效比TOPS/W。例如手机NPU可在几毫瓦下完成人脸识别。典型产品华为昇腾、苹果神经引擎、寒武纪。4. TPU张量处理器本质是Google设计的NPU的特定实现但命名不同。严格说TPU属于ASIC类DSA领域专用架构。核心特点为TensorFlow的张量运算优化。架构第一代TPU采用256x256脉动阵列65536个MAC配合大容量片上统一缓冲24MB。指令集是CISC风格直接执行神经网络层指令如“MatMul”。对比NPU通常TPU专指Google的产品而NPU是更通用的概念。其他厂商的NPU可能采用不同微架构如晶胞阵列、存内计算等。版本TPU v1推理、v2/v3训练、v4 Pod、Edge TPU。5. DPU数据处理器核心特点基础设施卸载引擎。架构通常是多核ARM处理器 硬件加速块如包解析器、加密引擎、RDMA引擎。本质是SmartNIC的进化版。任务虚拟化OVS卸载、网络协议处理TCP/IP、存储协议NVMe-oF、安全IPsec/TLS、时间同步等。目的将数据中心基础设施开销从CPU上卸载释放CPU运行业务应用。典型产品NVIDIA BlueField、Intel Mount Evans、AMD Pensando。三、关键对比维度延伸维度CPUGPUNPUTPUDPU控制单元占比高低极低极低中等用于控制流指令集复杂RISC/CISCSIMT/GPGPU专有如矩阵指令高层次层指令ARM 硬件加速内存模型高速缓存一致性全局内存共享内存专用缓冲区统一缓冲DRAMDDR SRAM典型算力几百GFLOPS几十TFLOPS几十TOPSINT8百TFLOPSBF16网络包处理线速编程模型通用汇编/CCUDA/OpenCL神经网络编译器TensorFlow/XLADPDK/SONiC四、系统视角它们如何协同工作在典型的AI服务器或智能手机SoC中CPU运行操作系统、调度任务、处理网络协议栈的控制面。GPU负责图形渲染或作为大规模并行加速器当没有NPU时。NPU/TPU专门运行AI模型例如实时语音唤醒、拍照增强。DPU服务器中处理所有进入的网卡流量执行虚拟化卸载CPU几乎不参与。举例数据中心的推荐系统DPU接收用户请求 → 解包后传给CPU → CPU调度并调用TPU进行DNN推理 → 结果通过DPU封装发回。这样每个PU做自己最擅长的事。五、总结一句话CPU什么都能做但大量并行时效率低总工。GPU擅长大规模简单并行像上千个小工工地搬砖队。NPU神经网络专用极高能效像定制化的流水线机器人。TPUGoogle版NPU脉动阵列的极致。DPU为数据中心减负专门帮CPU干“杂活”网卡、存储、安全。六、其他PUTPU谷歌出品的张量处理器是NPU的一种具体实现专为TensorFlow设计脉动阵列是其核心。DPU数据处理器专为数据中心基础设施任务设计如网络、存储、虚拟化可以看作是“卸载引擎”用于解放CPU。FPU浮点单元是CPU/GPU内部专门做浮点运算的模块不是独立处理器。APUAMD提出的概念将CPU和GPU集成在同一芯片上加速处理单元。BPU通常指大脑处理器Brain Processing Unit也是一种类NPU的设计强调类脑计算或脉冲神经网络