
“老王,我的量化模型在Jetson Nano上推理速度比预期慢了3倍,而且有时还会报内存分配失败的错误!”上周,一位做智能门禁的朋友深夜打电话给我,语气里满是焦虑。他按照我的专栏之前的量化教程,成功将YOLOv5s从FP32压缩到INT8,模型体积从14MB降到3.5MB,精度只掉了0.8%。可一部署到边缘设备,推理延迟从原来的30ms变成了90ms,还时不时崩一下。他反复检查了量化流程、校准集,甚至换了两块开发板,问题依旧。我远程登录他的设备,看了一眼nvidia-smi的输出——内存使用率只有40%,但进程的OOM(内存不足)日志却频频出现。这不是显存不够,而是内存碎片化在作祟。量化模型虽然小了,但推理时的内存分配方式变了,在资源受限设备上,频繁的碎片化分配反而比大模型更慢。痛点拆解:你以为量化后内存问题就解决了?很多开发者有一个认知误区:模型量化后体积变小,推理时的内存占用也会成比例减少。这是大错特错的。反例代码:为什么你的量化模型反而更慢?来看一个典型错误实现:importtensorrtastrtimportpycuda.