
影像技术实战29:图片数据集清洗质量差?损坏、重复、模糊、尺寸异常一站式检测方案一、问题场景:模型效果差,可能不是模型问题,而是数据集太脏在图像分类、目标检测、OCR、人脸识别、商品识别项目中,很多人第一反应是调模型:换 backbone 调学习率 加数据增强 换 loss 调 batch size但真实项目里,效果差经常来自数据本身:1. 图片损坏 2. 图片重复 3. 分辨率太低 4. 模糊图太多 5. 格式混乱 6. 透明图背景异常 7. 训练集和验证集重复 8. 类别目录放错 9. 标注和图片不匹配本文解决的问题:如何构建一个图片数据集清洗工具,对损坏、尺寸异常、模糊和重复进行批量检测,并输出可复查报告?二、工程原则:清洗不是直接删除不要一检测到问题就删除。正确流程:扫描 检测 生成报告 复制 bad 样本 人工复查 再决定删除、修复或保留三、架构设计dataset