神经网络与深度学习第三周总结——深度学习视觉应用

发布时间:2026/5/26 2:36:00

神经网络与深度学习第三周总结——深度学习视觉应用 一、引言深度学习在计算机视觉领域取得了革命性的突破从图像分类、目标检测到语义分割深度学习模型已经成为了视觉任务的主流方法。本节课围绕深度学习视觉应用展开系统讲解了常用数据集、评价指标、目标检测算法YOLO以及全卷积网络与语义分割等核心内容。计算机视觉的核心任务包括图像分类Image Classification、目标检测Object Detection、语义分割Semantic Segmentation和实例分割Instance Segmentation等。这些任务从粗粒度到细粒度逐步深入理解图像内容。二、常用数据集数据集是深度学习模型训练的基石。在计算机视觉领域有许多经典的公开数据集它们推动了算法的不断发展与比较。下面按照数据规模从小到大的顺序逐一介绍。2.1 MNIST 数据集MNISTModified National Institute of Standards and Technology数据集是最经典的深度学习入门数据集之一主要由手写数字图片和相应的标签组成。图片类别10类对应数字 0~9图片尺寸28×28 像素的灰度图像数据规模60,000 个训练样本 10,000 个测试样本文件组成原始 MNIST 数据库包含 4 个文件训练图像、训练标签、测试图像、测试标签MNIST 数据集的加载可以使用 PyTorch 提供的接口代码如下import torchvision from torch.utils import data mnist_train torchvision.datasets.MNIST( root../data, trainTrue, downloadTrue) mnist_test torchvision.datasets.MNIST( root../data, trainFalse, downloadTrue)2.2 Fashion-MNIST 数据集Fashion-MNIST 是由 Zalando 旗下研究部门提供的图像数据集旨在作为 MNIST 的替代品。它涵盖了 10 种类别的服装商品正面图片大小、格式和训练/测试集划分与 MNIST 完全一致60,000/10,000 的训练测试划分28×28 灰度图可以直接替换 MNIST 来测试算法性能无需改动任何代码。10 个类别包括T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包、短靴。mnist_train torchvision.datasets.FashionMNIST( root../data, trainTrue, downloadTrue) mnist_test torchvision.datasets.FashionMNIST( root../data, trainFalse, downloadTrue)2.3 CIFAR-10 数据集CIFAR-10 是一个包含 10 个类别的彩色图像数据集由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集整理。相比 MNISTCIFAR-10 的识别难度更高。图片类别10类飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车图片尺寸32×32 像素的彩色图像3通道数据规模50,000 个训练图像 10,000 个测试图像每个类有 6,000 张图像数据集分为 5 个训练批次和 1 个测试批次2.4 PASCAL VOC 数据集PASCAL VOCVisual Object Classes是目标分类、检测和分割领域最常用的数据集之一。PASCAL 全称是 Pattern Analysis, Statistical Modelling and Computational Learning。第一届 PASCAL VOC 举办于 2005 年2012 年终止目前常用的是 PASCAL VOC 2012。数据集共包含 20 个类别人person动物bird, cat, cow, dog, horse, sheep交通工具aeroplane, bicycle, boat, bus, car, motorbike, train室内物品bottle, chair, dining table, potted plant, sofa, tv/monitorPASCAL VOC 的标注采用 XML 格式每张图像对应一个同名的 XML 描述文件包含图像来源、尺寸等元信息以及目标的 bounding box 标注。2.5 MS COCO 数据集MS COCOMicrosoft Common Objects in Context起源于微软于 2014 年出资标注的数据集。该数据集以场景理解scene understanding为目标主要从复杂的日常场景中截取图像。ImageNet 竞赛停办后COCO 竞赛成为了当前目标识别、检测等领域最权威、最重要的标杆。标注类别80 类图片总量超过 33 万张其中 20 万张有标注个体数目超过 150 万个80 个类别分布类别组数量示例人1类person交通工具8类bicycle, car, bus, train, boat 等公路常见物5类traffic light, fire hydrant, stop sign 等动物10类cat, dog, horse, bird, elephant 等运动器材10类frisbee, skis, tennis racket 等厨房餐具7类bottle, wine glass, spoon, bowl 等水果食品10类apple, banana, pizza, cake 等家庭用品7类chair, bed, tv, refrigerator 等其他物品17类laptop, mouse, remote, cell phone 等2.6 ImageNet 数据集与 ILSVRCImageNet 始于 2009 年由李飞飞教授与 Google 合作建立是大规模图像识别领域最具影响力的数据集。其论文标题为ImageNet: A Large-Scale Hierarchical Image Database。总图像数据14,197,122 张总类别数21,841 类带有标注框的图像数1,034,908 张ImageNet-21K 预训练训练集约 1,400 万张图片21,000 个类别ILSVRCImageNet Large Scale Visual Recognition Challenge是依托 ImageNet 数据集举办的年度竞赛2012 年 AlexNet 的夺冠标志着深度学习在计算机视觉领域的崛起。2.7 JFT-300M 数据集JFT-300M 是 Google 内部用于训练图像分类模型的大规模数据集。该数据集包含约 3 亿张图像产生超过 10 亿个标签单张图像可以有多个标签。其中约 3.75 亿个标签是通过算法选择的该算法旨在最大限度地提高所选图像的标签精度。2.8 数据集对比总结数据集类别数图像规模图像尺寸主要任务MNIST107万28×28 灰度图像分类Fashion-MNIST107万28×28 灰度图像分类CIFAR-10106万32×32 彩色图像分类PASCAL VOC 2012201.1万不固定分类/检测/分割MS COCO8033万不固定检测/分割/标注ImageNet-21K21,8411,400万不固定图像分类JFT-300M—3亿不固定图像分类预训练三、评价指标评估模型性能是深度学习中的重要环节。对于分类和目标检测任务精确率Precision、召回率Recall和平均精度Average Precision, AP是最核心的评价指标。3.1 基本概念首先需要理解混淆矩阵中的四个基本统计量TPTrue Positive被正确地划分为正例的个数即实际为正例且被分类器划分为正例的实例数FPFalse Positive被错误地划分为正例的个数即实际为负例但被分类器划分为正例的实例数FNFalse Negative被错误地划分为负例的个数即实际为正例但被分类器划分为负例的实例数TNTrue Negative被正确地划分为负例的个数即实际为负例且被分类器划分为负例的实例数基于以上基本量可以定义三个核心评价指标其 LaTeX 公式如下精确率Precision—— 标识模型挑剔的程度召回率Recall—— 标识模型通过的程度召回率越高准确度越低精度Accuracy—— 整体分类正确的比例以飞机与大雁的分类为例假设一个测试集包含飞机和大雁两种图片。TP 是飞机被正确识别为飞机的数量FP 是大雁被错误识别为飞机的数量FN 是飞机被遗漏错误地认为是大雁的数量TN 是大雁没有被识别为飞机的数量。3.2 置信度与阈值在实际应用中模型输出的通常是置信度分数confidence score需要通过设置阈值来决定分类结果。调整阈值会改变 Precision 与 Recall 的取值阈值越高 → 分类越挑剔 → Precision 越高但 Recall 越低阈值越低 → 分类越宽松 → Recall 越高但 Precision 越低极端情况只识别置信度最高的一张图 → P 100%但 R 很低3.3 P-R 曲线P-R 曲线Precision-Recall Curve以 Recall 为横轴、Precision 为纵轴通过在不同阈值下计算对应的 P 和 R 值绘制而成。P-R 曲线反映了模型在不同召回率水平下的精确率表现曲线下的面积越大模型性能越好。一般来说Precision 和 Recall 是相互制约的精度越高召回率越低。P-R 曲线直观地展示了这种 trade-off 关系。3.4 平均精度AP与 mAPAPAverage Precision是对 P-R 曲线的综合度量其定义为其中 N 代表测试集中所有图片的个数P(k) 表示在能识别出 k 个图片时 Precision 的值Δr(k) 表示识别图片个数从 k-1 变化到 k 时 Recall 值的变化情况。通过计算可以发现那些 Recall 值没有变化的位置对 AP 值没有贡献。AP 计算示例mAPmean Average Precision是多类别检测任务中所有类别 AP 的平均值其中 C 为类别总数。mAP 是目标检测领域最常用的综合评价指标。实际计算时首先使用训练好的模型获得所有测试样本在每个类别上的 confidence score然后按 score 降序排序计算每个类别的 AP最后对所有类别的 AP 取平均。四、目标检测与 YOLO4.1 目标检测问题目标检测Object Detection是计算机视觉中的核心任务之一其目标是在给定的图片中精确找到物体所在位置并标注出物体的类别。与图像分类相比目标检测的难度更大物体的尺寸变化范围很大物体的摆放角度和姿态不定物体可以出现在图片的任何位置一张图片中可能包含多个不同类别的物体4.2 目标检测发展历程目标检测算法经历了从两阶段two-stage到单阶段one-stage的发展过程。YOLO 是一个集大成的方法理解之前的方法有助于掌握 YOLO 的思路。主要演进路径R-CNN2014使用 Selective Search 生成候选区域然后用 CNN 提取特征最后用 SVM 分类SPP-Net2015引入空间金字塔池化解决固定输入尺寸问题Fast R-CNN2015引入 RoI Pooling实现端到端训练大幅提升速度Faster R-CNN2015引入 RPNRegion Proposal Network实现真正端到端的目标检测YOLO2016You Only Look Once将检测视为回归问题单次前向传播即可完成检测方法年份核心创新特点R-CNN2014Selective Search CNN SVM多阶段训练速度慢SPP-Net2015空间金字塔池化支持任意尺寸输入Fast R-CNN2015RoI Pooling 多任务损失端到端训练速度提升Faster R-CNN2015RPN 候选区域网络真正端到端精度高YOLO2016单阶段回归速度快适合实时应用4.3 YOLOYou Only Look OnceYOLO 的核心思想是将目标检测问题转化为一个回归问题将图像划分为 S × S 的网格每个网格负责预测 B 个边界框bounding box及其置信度以及 C 个类别的条件概率。整个检测过程只需要一次前向传播因此称为 You Only Look Once。YOLO 的主要优点速度快单次前向传播完成检测适合实时应用全局推理在训练和推理时看到整张图像隐式编码了上下文信息泛化能力强能够学习物体的泛化表示YOLO 的损失函数设计包含以下几个部分位置损失bounding box 坐标的回归误差置信度损失包含物体和不包含物体的置信度分类损失类别条件概率的误差关于 YOLO 的详细内容包括网络结构、锚框设计、多尺度预测、损失函数推导等请参考配套材料 6-2目标检测与YOLO。五、全卷积网络与语义分割5.1 语义分割概述语义分割Semantic Segmentation是比目标检测更细粒度的视觉任务其目标是对图像中的每一个像素进行分类输出像素级的语义标签。它为图像中的每个像素分配一个类别标签从而实现对场景的密集理解。语义分割与目标检测的区别对比维度目标检测语义分割输出形式边界框 类别标签像素级类别掩码粒度物体级别像素级别实例区分可区分不同实例不区分同类不同实例典型应用自动驾驶、安防监控医学影像、遥感分析5.2 全卷积网络FCNFCNFully Convolutional Network是语义分割的经典方法。其核心创新在于将传统 CNN 中的全连接层全部替换为卷积层使得网络可以接受任意尺寸的输入图像并输出相应尺寸的像素级预测结果。FCN 的网络结构主要包括三个部分1编码器卷积部分基于 VGG16 等预训练网络提取特征通过 1×1 卷积替代全连接层生成热图heatmap多次卷积和池化使得特征图尺寸逐渐减小2解码器反卷积部分使用转置卷积Transposed Convolution逐步上采样将低分辨率的高层语义特征恢复为原图分辨率3跳级结构Skip Connection融合浅层的细节特征和深层的语义特征FCN-32s直接 32 倍上采样效果较差FCN-16s融合 pool4 特征效果中等FCN-8s融合 pool3 pool4 特征效果最优mIoU 最高FCN 的语义分割流程总结为5.3 DeepLab v3DeepLab v3 是当前广泛使用的语义分割方法相比 FCN 有显著改进。其主要技术创新包括空洞卷积Atrous/Dilated Convolution在不增加参数量的前提下扩大感受野空洞空间金字塔池化ASPP使用不同膨胀率的并行空洞卷积捕获多尺度信息全局上下文建模引入图像级别的特征以增强全局语义理解DeepLab v3 在 PASCAL VOC 2012 和 Cityscapes 等数据集上取得了优异的语义分割性能。相关演示程序参见 deeplab.ipynb。语义分割的常用评价指标像素精度Pixel Accuracy正确分类的像素数 / 总像素数平均交并比mIoUmean Intersection over Union各类别 IoU 的平均值是最常用的指标

相关新闻