
一、问题现场:凌晨三点的告警电话上周三凌晨,手机突然狂震——监控平台显示RT-DETR目标检测服务的P99延迟从35ms飙到了1200ms。登录服务器一看,GPU内存爆了,某个容器的显存占用达到了24GB的峰值。紧急扩容实例后,我开始反思:用Docker Compose部署的那套“伪生产”环境,根本扛不住突发的流量洪峰。是时候把模型推理服务搬到Kubernetes上了,但这一搬,坑比想象中多得多。二、容器化改造:别把模型文件塞进镜像最初的做法很天真:把训练好的.pt权重文件直接打包进Docker镜像。Dockerfile里这么写:# 错误示范!千万别这样写 COPY rt-detr-r18.pt /app/models/这样做的后果是每次模型更新都要重新构建镜像,镜像体积巨大(动辄3GB+),推送镜像慢如蜗牛。后来改成用Init Container从对象存储拉取模型,主容器挂载EmptyDir:# 这才是正经做法initContainers:-