vLLM--量化技术-尧图网站设计

量化的核心思想大模型默认用 FP1616 位浮点数存储权重和 KV 数据每个元素占 2 字节。量化就是把这些高精度的数据转换成更低精度的数据比如 INT8、INT4、FP8每个元素只占 1 字节甚至 0.5 字节。核心价值显存占用减半INT8 量化后权重和 KV-Cache 的显存占用直接减半吞吐量翻倍更小的数据意味着更快的内存读写量化分为两大类vLLM 都支持权重量化对模型的权重参数进行量化降低权重的显存占用KV-Cache 量化对 KV-Cache 进行量化降低 KV-Cache 的显存占用这两个可以独立开启也可以同时开启vLLM 支持的主流量化方式FP8 量化原理目前工业界首选用 8 位浮点数FP8来存储权重和 KV-Cache是 NVIDIA Hopper 架构H100、H200的原生支持。精度损失极小几乎和 FP16 无差异不需要校准直接转换支持硬件加速计算速度比 FP16 更快显存占用减半适用场景有 H100/H200 GPU 的生产环境对精度要求高的场景高吞吐量的服务场景vLLM 配置bash运行vllm serve model_name --quantization fp8 --kv-cache-dtype fp8AWQ 量化最成熟的 INT4 量化原理Activation-aware Weight Quantization激活感知权重量化。针对权重进行 INT4 量化每个权重只占 0.5 字节会根据激活值的分布对权重进行分组量化精度损失非常小几乎可以忽略是目前 INT4 量化中精度最高、最稳定的方案适用场景消费级 GPU 部署大模型显存不足的场景对精度要求较高的场景vLLM 配置bash运行vllm serve model_name --quantization awq --kv-cache-dtype int8GPTQ 量化经典 INT4 量化原理GPT Post-training Quantization后训练量化。也是 INT4 权重量化和 AWQ 类似是最早的 INT4 量化方案生态最成熟精度比 AWQ 略低一点但差距很小支持的模型非常多适用场景已经有 GPTQ 量化好的模型老版本的 vLLM 部署对精度要求不是特别高的场景vLLM 配置bash运行vllm serve model_name --quantization gptq --kv-cache-dtype int8纯 KV-Cache 量化如果你不想量化权重只想量化 KV-Cache也可以单独开启bash运行vllm serve model_name --kv-cache-dtype int8权重还是 FP16保证精度KV-Cache 用 INT8 存储显存占用减半吞吐量提升 30% 左右适合对精度要求极高但又想提升吞吐量的场景vLLM 量化参数调优核心参数参数作用推荐值--quantization权重量化方式fp8/awq/gptq--kv-cache-dtypeKV-Cache 的数据类型fp8/int8/fp16--max-lora-rank多 LoRA 时的 rank64--max-loras最大同时加载的 LoRA 数量128

vLLM--量化技术

相关新闻

基础能力系列 - 多线程1 - 内存序

用Python和ERA5数据搞定大气视热源Q1与视水汽汇Q2：从数据下载到结果可视化的完整流程

数学建模小白必看：用GM(1,1)灰色预测搞定‘数据少、规律乱’的预测题（附Python代码）

IP安全 SEC VPN_2

量子机器学习对称性工程权衡：Twirlator工具解析与实战指南

Python小红书数据采集完整指南：3步快速上手xhs库

3个核心技术难题，猫抓如何成为现代网页媒体资源的终极解决方案

终极魔兽争霸III优化指南：如何使用WarcraftHelper提升游戏体验

NS-USBLoader：Switch文件传输与RCM注入的一站式解决方案

Go语言ORM框架GORM深度解析

BetterGI：解放双手的5大自动化场景终极解决方案

如何5分钟搭建抖音无水印视频解析工具：DouYinBot完整指南

让 AI 做代码 Review（CR）：测试如何提前在代码提交阶段发现 Bug？

问题不是要不要审，而是审查放在哪条路径

水纹真实度提升300%的关键技巧，深度拆解--style raw、--chaos 45与自定义tile texture协同机制

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程