显存和算力的关系

发布时间:2026/6/3 4:38:04

显存和算力的关系 我们在模型的使用过程中经常会发现一些模型显存够用但是算力跟不上这时就会出现有关显存和算力之间的关系尤其是有些模型会出现不吃显存但是很吃算力的情况需要具体情况具体进行分析。1、显存和算力的关系概念通俗理解决定因素显存MemoryGPU 上存数据的“仓库”模型参数大小、KV cache、大批量输入、激活值等算力ComputeGPU/CPU 执行矩阵乘法的“发动机”AICore/SM 数量、主频、算力峰值TFLOPS显存不是抽象的“容量”而是由独立的存储芯片提供的焊在 GPU 板卡上常见的显存芯片是HBM和GDDRGDDR6/GDDR6X常见于消费级显卡RTX 系列容量一般 8GB24GBHBM2e/HBM3用于数据中心级A100、H100、Ascend 910B容量 40GB192GB带宽更高决定显存大小的物理因素显存芯片颗数与容量比如 8 颗 × 8GB 64GB显存总线宽度与带宽影响数据读写速度GPU 控制器支持的最大寻址容量A10080GB用的是 HBM2e显存芯片总容量物理就是 80GB没法通过软件“变大”。如果模型 KV cache 超过了 80GB就只能拆分分布式或换更大显存的卡。算力的载体是GPU 核心SM/AI Core算力来自 GPU 内部的计算单元CUDA Core、Tensor Core 或 NPU AICore。它们负责执行矩阵乘法、向量加法等浮点操作。算力大小的主要物理决定因素硬件指标含义对算力的影响核心数量 (SM / AICore 数量)并行计算单元多少决定并行能力每核心算力 (FLOPs per core)单核每秒能算多少次浮点决定单位核心性能时钟频率 (MHz/GHz)工作频率频率越高算力越强数据类型支持 (FP32 / FP16 / BF16 / INT8)不同精度对应不同吞吐混合精度可大幅提升算力类似CPU的计算原则算力 核心数 × 每核每周期操作数 × 主频 × (是否使用 Tensor Core 等加速单元)2、硬件是显存和算力的根本制约限制对象来自硬件的物理约束显存容量显存芯片数量、单颗容量、控制器寻址范围显存带宽显存接口位宽、时钟频率算力上限SM/AICore 总数、主频、工艺制程、功耗散热能力数据精度支持硬件是否支持 FP16/BF16/INT8 等指令集软件无法“创造”更多显存或算力只能更高效地利用现有资源比如通过量化节省显存或通过并行提升利用率。总的来说1、显存是容量限制由 GPU 上的存储芯片决定决定你能“装下”什么。2、算力是计算能力由核心数量和频率决定决定你能“算得多快”。3、HBMHBMHigh Bandwidth Memory 是一种专为高性能计算HPC、AI、大模型设计的显存技术它最大的特点就是带宽极高是 GDDR6 的 35 倍封装紧凑垂直叠层 TSV 封装距离 GPU 核心极近功耗更低同样带宽下耗电远小于 GDDR简单说GDDR 就像是「在主板上插内存条」HBM 就像是「把内存直接焊在 CPU 上」离核心更近、传得更快。此图由gemini制作豆包二审。

相关新闻