典型的卷积神经网络架构

发布时间:2026/5/30 20:52:33

典型的卷积神经网络架构 目录1.LeNet2.AlexNet卷积神经网络Convolutional Neural Network (CNN)1.LeNetLeNet更准确地说是 LeNet-5卷积神经网络的经典结构是现代 CNN 的开山之作也是卷积神经网络的 “入门模板”。 网络结构逐层解析 关键设计亮点与意义卷积 池化交替结构这是 CNN 的经典范式卷积提取特征池化压缩特征。这种结构大幅减少了全连接层的参数数量同时保留了空间信息解决了早期全连接网络参数爆炸的问题。局部连接 权值共享卷积层的权值共享机制让同一个卷积核在整张图上滑动提取特征既减少了参数又让网络具备了平移不变性物体在图中移动网络依然能识别。应用背景LeNet-5 最初被用于手写数字识别MNIST 数据集后来被实际应用在银行支票的手写数字识别中是第一个成功商用的卷积神经网络。 补充说明图中提到 “C1 和 C3 卷积核的大小均为 5×5”这是 LeNet-5 的经典设计这种中等尺寸的卷积核在当时的算力条件下平衡了特征提取能力和计算成本。现代的 LeNet 实现中通常会将平均池化替换为最大池化激活函数从 Sigmoid / 双曲正切替换为 ReLU以提升训练效率和性能。import torch import torch.nn as nn model nn.Sequential( # 卷积层1 ReLU 池化层1 nn.Conv2d(in_channels1, out_channels6, kernel_size(5, 5), stride(1, 1), padding(2, 2)), # output: 6*28*28 nn.ReLU(), nn.MaxPool2d(kernel_size(2, 2), stride(2, 2)), # output: 6*14*14 # 卷积层2 ReLU 池化层2 nn.Conv2d(in_channels6, out_channels16, kernel_size(5, 5), stride(1, 1), padding(0, 0)), # output: 16*10*10 nn.ReLU(), nn.MaxPool2d(kernel_size(2, 2), stride(2, 2)), # output: 16*5*5 # 展平层 全连接层 nn.Flatten(), nn.Linear(in_features400, out_features120), # output: 120 nn.ReLU(), nn.Linear(in_features120, out_features84), # output: 84 nn.ReLU(), nn.Linear(in_features84, out_features10) # output: 10 ) # 创建一个模拟输入单张28×28灰度图 input_tensor torch.randn(1, 1, 28, 28) print(f输入形状: {input_tensor.shape}) # 逐层打印输出形状 print(\n逐层输出形状:) for i, layer in enumerate(model): input_tensor layer(input_tensor) print(f第{i1}层 ({layer.__class__.__name__}): {input_tensor.shape}) # 最终输出 print(f\n最终输出形状: {input_tensor.shape}) print(f最终输出值:\n{input_tensor})PyTorch 中所有图像数据都遵循NCHW格式这四个维度的顺序是固定的(batch_size, channels, height, width)对应输入(1, 1, 28, 28)第 1 个1batch_size批量大小一次同时输入模型的图片数量第 2 个1channels颜色通道数图片的颜色通道数因为 MNIST 手写数字数据集是灰度图每个像素只有一个亮度值0 纯黑255 纯白所以通道数是 128height图片高度像素每张图片的高度和宽度单位是像素28width图片宽度像素每张图片的高度和宽度单位是像素一个28×28的手写数字图片是如何一步步变成10个数字0-9的预测结果的层输入形状输出形状核心操作输入(1, 1, 28, 28)-原始灰度图Conv2d-1(1, 1, 28, 28)(1, 6, 28, 28)5×5 卷积6 个核ReLU-1(1, 6, 28, 28)(1, 6, 28, 28)非线性激活MaxPool2d-1(1, 6, 28, 28)(1, 6, 14, 14)2×2 最大池化Conv2d-2(1, 6, 14, 14)(1, 16, 10, 10)5×5 卷积16 个核ReLU-2(1, 16, 10, 10)(1, 16, 10, 10)非线性激活MaxPool2d-2(1, 16, 10, 10)(1, 16, 5, 5)2×2 最大池化Flatten(1, 16, 5, 5)(1, 400)展平为一维Linear-1(1, 400)(1, 120)全连接ReLU-3(1, 120)(1, 120)非线性激活Linear-2(1, 120)(1, 84)全连接ReLU-4(1, 84)(1, 84)非线性激活Linear-3(1, 84)(1, 10)输出层超参数如何配置参考有相关问题背景的开源模型的超参数配置地毯式搜索组合训练代码要写的灵活只需要修改超参数配置config、网络结构json把网络层数、每一层网络的类型及参数都写在配置文件里即可复用。「可以另写脚本循环生成上述多个配置文件每个配置起个训练任务」训练工具是否好用是否强势可以抢到卡思考一下如果将MNIST图片的范围扩大 并且将原始图片的内容摆放在不同位置上此时的分类效果会如何呢?用上述的网络结构在这一步会有问题全连接层的输入是带5x5空间信息的当测试数据和训练数据分布不同时分布偏移模型效果会大幅下降。CNN 只有有限的平移不变性不是完全不变。最大池化层只能提供非常有限的局部平移不变性通常只有 1-2 个像素当物体平移超过这个范围模型提取的高层特征会发生根本性变化超过这个范围就会识别失败解决全局池化把汇集层pooling到1x1就可以得到一个相还OK的结果。证明CNN 具有平移不变性。如果要用全连接网络可以通过数据增强的方式扩充训练集数据的多样性包含测试集的数据的分布训练计算量也会增加。会浪费参数量右下角部分黑色区域参数量只会计算没有梯度不会更新会一直保持初始化的状态。utils.pyimport torch class EnlargeImageTransform2: def __init__(self, scaling2, offset(0,0)): self.scaling scaling self.offset offset def __call__(self, img : torch.Tensor): if img.dim() 2: H img.shape[0] W img.shape[1] new_img torch.zeros(H * self.scaling, W * self.scaling) l1 H * self.scaling - self.offset[0] l1 l1 if l1 H else H l2 W * self.scaling - self.offset[1] l2 l2 if l2 W else W new_img[self.offset[0]: self.offset[0] l1, self.offset[1]: self.offset[1] l2] img[:l1, :l2] return new_img if img.dim() 3: H img.shape[1] W img.shape[2] l1 H * self.scaling - self.offset[0] l1 l1 if l1 H else H l2 W * self.scaling - self.offset[1] l2 l2 if l2 W else W new_img torch.zeros(img.shape[0], H * self.scaling, W * self.scaling) new_img[:, self.offset[0]: self.offset[0] l1, self.offset[1]: self.offset[1] l2] img[:, :l1, :l2] return new_img若报错TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found class NoneType原因PyTorch 的default_collate函数只能将以下类型的数据打包成 batch张量 (tensors)numpy 数组 (numpy arrays)数字 (numbers)字典 (dicts)列表 (lists)而你的Dataset.__getitem__方法在某个索引处返回了 None 值导致批处理失败。——实际忘记写return若报错RuntimeError: mat1 and mat2 shapes cannot be multiplied (32x3136 and 784x128)原因这是PyTorch 全连接层 (Linear) 输入输出维度不匹配错误发生在矩阵乘法运算时。矩阵乘法要求第一个矩阵的列数必须等于第二个矩阵的行数。Linear 层内部计算逻辑PyTorch 的nn.Linear(in_features, out_features)层执行的计算是y x W.T b权重矩阵W的形状是(out_features, in_features)转置后W.T的形状是(in_features, out_features)因此要求输入x的最后一维必须等于in_featuresPyTorchmlp_mnist.py: 基于 PyTorch 实现的 MNIST 手写数字识别多层感知机MLP训练脚本 功能包含 - 自定义 MLP 模型构建 - 训练循环与验证 - TensorBoard 可视化训练过程 - 早停Early Stopping机制 - 模型保存与加载 - 测试集最终评估 import torch # PyTorch 核心库 import torch.nn as nn # 神经网络模块包含层、损失函数等 from torch.utils.data import DataLoader, Dataset, random_split # 数据加载工具DataLoader、Dataset基类、数据集拆分 from torch.optim import SGD # 随机梯度下降优化器 from torchvision import datasets, transforms # 计算机视觉工具常用数据集、图像变换 from typing import Union # 类型提示联合类型 import os # 操作系统接口路径操作、目录管理 from utils import EnlargeImageTransform2 class MLP(nn.Module): 多层感知机Multi-Layer Perceptron, MLP模型 使用 nn.Sequential 顺序构建隐藏层带 ReLU 激活和输出层 def __init__(self, dims): 初始化 MLP 模型 参数: dims (list): 维度列表依次为 [输入层维度, 隐藏层1维度, ..., 隐藏层n维度, 输出层维度] super().__init__() self.hidden_layer_num len(dims) - 2 # 计算隐藏层数量总层数减输入输出层 self.layers nn.Sequential() # 顺序容器用于堆叠网络层 # 循环添加隐藏层线性层 ReLU激活 for i in range(self.hidden_layer_num): self.layers.add_module(linear_str(i), nn.Linear(in_featuresdims[i], out_featuresdims[i1])) self.layers.add_module(relu_str(i), nn.ReLU()) self.layers.add_module(output, nn.Linear(in_featuresdims[-2], out_featuresdims[-1])) # 添加输出层无激活 def forward(self, x): 前向传播函数 参数: x (torch.Tensor): 输入张量 返回: torch.Tensor: 模型输出张量 return self.layers(x) def train(model : nn.Module, train_dataset : Dataset, valid_dataset : Dataset, loss_fn : nn.Module, optimizer : torch.optim.Optimizer, config : dict) - None: 模型训练主函数 包含训练循环、验证、TensorBoard 记录、早停判断及最佳模型保存 参数: model (nn.Module): 待训练的模型 train_dataset (Dataset): 训练数据集 valid_dataset (Dataset): 验证数据集 loss_fn (nn.Module): 损失函数 optimizer (torch.optim.Optimizer): 优化器 config (dict): 配置字典包含训练超参数、设备、保存路径等 # 创建数据加载器训练集打乱、验证集不打乱 train_dataloader DataLoader(train_dataset, batch_sizeconfig[train_batch_size], shuffleTrue, drop_lastTrue) eval_dataloader DataLoader(valid_dataset, batch_sizeconfig[eval_batch_size], shuffleFalse, drop_lastFalse) # 将模型移动到指定设备CPU/GPU model model.to(config[device]) # 训练主流程初始化 best_valid_loss 1e10 # 初始化最佳验证损失为极大值 no_improve_epochs 0 # 验证损失未改善的轮数计数 step 0 # 全局训练步数用于 TensorBoard 记录 for epoch in range(config[epochs]): model.train() # 将模型设置为训练模式启用 Dropout、BatchNorm 等训练专用层 train_loss [] # 记录当前 epoch 每个 batch 的训练损失 for batch_x, batch_y in train_dataloader: # 将 batch 数据移动到指定设备 batch_x batch_x.to(config[device]) batch_y batch_y.to(config[device]) # 前向传播计算模型预测和损失 preds model(batch_x) loss loss_fn(preds, batch_y) train_loss.append(loss) # 反向传播计算梯度 loss.backward() # 优化器更新更新模型参数 optimizer.step() step 1 # 更新全局步数 # 梯度清零避免梯度累积 optimizer.zero_grad() # 计算当前 epoch 的平均训练损失 train_mean_loss sum(train_loss) / len(train_loss) # 在验证集上评估模型 valid_mean_loss, valid_mean_accuracy test(model, eval_dataloader, loss_fn, config) # 打印当前 epoch 的训练和验证指标 print(fepoch: {epoch}, train_loss: {train_mean_loss:.5f}, valid_loss: {valid_mean_loss:.5f}, valid_accuracy: {valid_mean_accuracy:.5f}) # 检查验证损失是否改善更新最佳模型 if valid_mean_loss best_valid_loss: best_valid_loss valid_mean_loss # 更新最佳验证损失 no_improve_epochs 0 # 重置未改善计数 torch.save(model.state_dict(), config[save_path]) # 保存当前最佳模型参数 else: no_improve_epochs 1 # 未改善计数加1 # 触发早停机制超过最大未改善轮数则停止训练 if no_improve_epochs config[max_no_improve_epochs]: print(fearly stop at epoch: {epoch}) break def test(model : nn.Module, data : Union[DataLoader, Dataset], loss_fn : nn.Module, config : dict) - list: 在验证集或测试集上评估模型性能 计算平均损失和平均准确率 参数: model (nn.Module): 待评估的模型 data (Union[DataLoader, Dataset]): 评估数据可为 DataLoader 或 Dataset loss_fn (nn.Module): 损失函数 config (dict): 配置字典包含设备、batch size 等 返回: list: [平均损失, 平均准确率] # 检查模型是否在指定设备上不在则移动 if next(iter(model.parameters())).device.type ! config[device]: model model.to(config[device]) model.eval() # 将模型设置为评估模式禁用 Dropout、BatchNorm 等训练专用层 # 根据输入类型创建 DataLoader if isinstance(data, DataLoader): dataloader data else: dataloader DataLoader(data, batch_sizeconfig[eval_batch_size], shuffleFalse, drop_lastFalse) loss [] # 记录每个 batch 的损失 accuracy [] # 记录每个 batch 的准确率 batch_num [] # 记录每个 batch 的样本数用于加权平均 # 禁用梯度计算节省内存和计算资源 with torch.no_grad(): for batch_x, batch_y in dataloader: # 将 batch 数据移动到指定设备 batch_x batch_x.to(config[device]) batch_y batch_y.to(config[device]) # 前向传播计算预测 preds model(batch_x) # 计算损失并记录 loss.append(loss_fn(preds, batch_y.to(config[device]))) # 计算准确率预测类别与真实类别比较取平均后记录 accuracy.append((torch.argmax(preds, dim-1).reshape(-1) batch_y).float().mean()) batch_num.append(len(batch_x)) # 记录当前 batch 的样本数 # 计算加权平均损失考虑不同 batch 大小 mean_loss sum([loss[i] * batch_num[i] for i in range(len(loss))]) / sum(batch_num) # 计算加权平均准确率 mean_accuracy sum([accuracy[i] * batch_num[i] for i in range(len(accuracy))]) / sum(batch_num) return mean_loss, mean_accuracy def same_seed(seed): 设置随机种子确保 PyTorch 实验结果的可复现性 固定 CPU、GPU单卡/多卡的随机种子并禁用 CuDNN 的非确定性算法 参数: seed (int): 随机种子值 torch.manual_seed(seed) # 固定 CPU 随机种子 torch.cuda.manual_seed(seed) # 固定当前 GPU 随机种子 torch.cuda.manual_seed_all(seed) # 固定所有 GPU 随机种子多卡场景 torch.backends.cudnn.deterministic True # 禁用 CuDNN 的非确定性算法 torch.backends.cudnn.benchmark False # 禁用 CuDNN 的自动优化避免非确定性 if __name__ __main__: do_training True # 训练标志True 执行训练False 仅加载模型测试 # 配置字典包含所有超参数、路径、设备等设置 config { seed: 0, # 随机种子 lr: 0.01, # 学习率 weight_decay: 0.001, # 权重衰减L2 正则化 train_batch_size: 32, # 训练 batch 大小 eval_batch_size: 32, # 评估 batch 大小 epochs: 10, #1000, # 最大训练轮数 max_no_improve_epochs: 10, # 早停阈值验证损失连续未改善的最大轮数 valid_ratio: 0.1, # 验证集占训练集的比例 save_path: ./model/mlp.ckpt, # 模型保存路径 device: cuda if torch.cuda.is_available() else cpu, # 设备优先 GPU否则 CPU log_dir: ./log/ # TensorBoard 日志保存目录 } # 清理旧的 TensorBoard 日志目录若存在则删除所有内容 if os.path.isdir(config[log_dir]): os.system(frm -fr {config[log_dir] os.sep *}) # 设置随机种子保证可复现性 same_seed(config[seed]) # 检查模型保存目录是否存在不存在则创建 model_dir os.path.split(config[save_path])[0] if not os.path.isdir(model_dir): os.makedirs(model_dir) # 定义图像预处理变换转为张量 标准化均值0.5标准差0.5 transforms1 transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)), EnlargeImageTransform2(2, (0, 0)) ]) transforms2 transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)), EnlargeImageTransform2(2, (28, 28)) ]) # 加载 MNIST 训练集和测试集若本地不存在则自动下载 train_dataset datasets.MNIST(./mnist, trainTrue, downloadTrue, transformtransforms1) test_dataset datasets.MNIST(./mnist, trainFalse, downloadTrue, transformtransforms2) # 拆分训练集为新的训练集和验证集 train_size int(len(train_dataset) * (1 -config[valid_ratio])) # 新训练集大小 valid_size len(train_dataset) - train_size # 验证集大小 train_dataset, valid_dataset random_split(train_dataset, [train_size, valid_size]) # 随机拆分 # 创建模型先 Flatten 将 28x28 图像展平为 784 维向量再接入自定义 MLP model nn.Sequential(nn.Flatten(), MLP([28*28*2*2, 128, 10])) # 定义损失函数交叉熵损失适用于多分类任务 loss_fn nn.CrossEntropyLoss(reductionmean) # 定义优化器随机梯度下降SGD包含学习率和权重衰减 optimizer SGD(model.parameters(), lrconfig[lr], weight_decayconfig[weight_decay]) # 执行训练流程 if do_training: train(model, train_dataset, valid_dataset, loss_fn, optimizer, config) torch.save(model.state_dict(), config[save_path]) # 训练结束后再次保存模型确保最终状态保存 # 加载最佳模型参数 model.load_state_dict(torch.load(config[save_path], weights_only True)) # 在测试集上评估最终模型性能 test_loss, test_accuracy test(model, test_dataset, loss_fn, config) print(ftest_loss: {test_loss:.5f}, test_accuracy: {test_accuracy:.5f})不work2.AlexNet赢得了2012年ImageNet图像识别挑战赛。接下来我们基于LeNet的结构重新进行MNIST数字手写体识别。

相关新闻