
上周在部署RT-DETR到边缘设备时遇到一个诡异现象:模型推理时延波动极大,有时30ms,偶尔突然跳到200ms。盯着代码看了半天没发现逻辑问题,数据流也正常。这种时候,靠猜是没用的,必须上性能分析工具——PyTorch Profiler。今天我们就来聊聊怎么用它揪出那些藏在细节里的性能“幽灵”。一、从一次实际性能调试说起当时第一反应是检查数据预处理,但加了时间戳打印后发现预处理时间稳定。问题显然出在模型前向传播环节。于是祭出PyTorch Profiler,跑了下面这段分析代码:withtorch.profiler.profile(activities=[torch.profiler.ProfileActivity.CPU