
承接上一篇 PyTorch 框架的工程基础内容我们正式进入神经网络的基础结构学习。ANN人工神经网络是所有深度学习网络的底层原型它模拟生物大脑神经元的连接逻辑搭建计算结构具备极强的非线性拟合能力。本篇将从结构概述、激活函数、参数初始化、损失函数、优化策略、正则化、工程搭建全流程拆解 ANN 的完整知识体系。一、ANN 人工神经网络概述1.1核心定义ANN 通过神经元相互连接搭建计算网络模拟生物神经网络的信息传递逻辑实现对现实复杂事物规律的拟合完成分类、回归等各类机器学习任务。1.2网络结构组成标准全连接 ANN 分为三层结构输入层神经元数量等于样本的特征列数负责接收原始输入特征隐藏层可以设置多层为网络引入非线性拟合能力让网络可以处理复杂任务同层神经元之间无连接本层每个神经元会和上一层所有神经元建立全连接搭配专属的权重w与偏置b输出层根据任务类型设置神经元数量输出最终预测结果。二、常用激活函数激活函数是给神经网络引入非线性能力的核心组件若无激活函数多层全连接网络等价于单层线性模型无法拟合复杂模式。主流激活函数特性与适用场景如下激活函数取值范围特性与适用场景Sigmoid输出(0,1)导数(0,0.25)兼顾正负样本易出现梯度饱和多用于二分类任务的输出层Tanh输出(-1,1)导数(-1,1)正负样本区分效果更明显多用于隐藏层ReLU正数保留、负数置 0仅考虑正样本缓解深层网络梯度消失衍生变体 Leaky ReLU、PReLU 解决了原生 ReLU 神经元死亡的缺陷是深层网络隐藏层的首选Softmax所有输出和为 1将加权结果转化为类别概率分布专门用于多分类任务的输出层2.1 激活函数选择通用策略隐藏层ReLU 及变体优先 Tanh Sigmoid二分类输出层Sigmoid多分类输出层Softmax回归输出层线性恒等映射 Identity三、参数的初始化3.1初始化目的合理设置权重、偏置的初始值可以有效加快模型收敛速度避免训练初期就出现梯度消失 / 梯度爆炸问题。3.2常用初始化方案1. 基础通用初始化均匀分布uniform_、正态分布normal_、全零zeros_、全一ones_、自定义常数constant_2. 适配激活函数的优化初始化1. Kaiming 初始化kaiming_uniform_/kaiming_normal_专门适配 ReLU 系列激活函数2. Xavier 初始化xavier_uniform_/xavier_normal_适配 Tanh、Sigmoid 类激活函数。四、损失函数损失函数用来衡量模型预测结果和真实标签的差距是模型优化的目标依据根据任务类型分为三类4.1回归任务连续值预测常用指标MSE 均方误差、MAE 平均绝对误差、RMSE 均方根误差、SmoothL1 平滑 L1 损失。4.2分类任务离散类别预测深度学习主流使用交叉熵损失二分类任务用二分类交叉熵多分类任务用多分类交叉熵。4.3聚类任务常用 SSE 误差平方和、CH 轮廓系数这类聚类评估指标作为优化目标。五、梯度下降优化介绍梯度下降是 ANN 更新参数、最小化损失的核心算法原生梯度下降存在训练瓶颈有两类主流优化方向5.1原生梯度下降的痛点在参数空间的平缓区域下降速度极慢且容易陷入局部最优无法找到全局最优解。5.2优化改进方案梯度层面优化动量 自适应学习率依次衍生出动量 Momentum、AdaGrad、RMSprop最终整合出工业界广泛使用的 Adam 自适应优化器学习率策略优化分为手动调整固定学习率、自适应学习率优化两大类。六、正则化相关正则化的核心目标是缓解模型过拟合思维导图介绍了两种最常用的方案6.1 Dropout随机失活训练阶段会以设定概率p通常取0.2∼0.5随机让部分神经元失效同时用1/(1-p)缩放保留神经元的权重测试阶段会关闭该机制。可以削弱批次训练中样本差异带来的过拟合问题。6.2 BN批量归一化对每一批次的输入数据做标准化处理再加入平移、缩放参数修正分布解决训练过程中的内部协变量偏移问题大幅加快训练收敛速度提升模型泛化能力。七、如何搭建人工神经网络7.1前期思路分析编码前必做统计数据集的特征列数确定输入层神经元数量规划隐藏层的层数、每层的神经元个数分析输出层判断任务是二分类 / 多分类 / 回归确定输出神经元数量为每一层匹配适配的激活函数、参数初始化方式。7.2 PyTorch实现流程自定义网络类继承nn.Module基类在__init__()方法中定义、搭建网络各层结构在forward()方法中编写前向传播逻辑最终返回预测结果。7.3扩展调试工具可以使用torchsummary库的summary()函数一键统计网络的参数量、每层维度等信息方便结构调试。八、总结ANN 是深度学习所有复杂网络的基础原型完整掌握它的结构设计、激活函数选型、参数初始化、损失与优化、正则化、工程落地全流程就具备了搭建基础神经网络的能力。后续会基于 ANN 的原理拓展适配图像任务的卷积神经网络 CNN。