机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩

发布时间:2026/7/5 14:30:47

机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩 第十四章Backpropagation — 知识点笔记综合来源Lecture 14 PDF38页、课堂笔记CSDN占位图14.1 梯度计算三种方法对比 ⭐(1) 数值微分Numerical Differentiation∂E∂wi≈E(wϵIi)−E(w−ϵIi)2ϵ\frac{\partial E}{\partial w_i} \approx \frac{E(w \epsilon I_i) - E(w - \epsilon I_i)}{2\epsilon}∂wi​∂E​≈2ϵE(wϵIi​)−E(w−ϵIi​)​优点缺点适用于任何函数近似非精确易于实现极贵需2D2D2D次误差计算→O(ND2)\mathcal{O}(ND^2)O(ND2)总代价(2) 符号微分Symbolic Differentiation用求导规则推导解析梯度表达式优点精确 | 缺点表达式膨胀Expression Swell→大量冗余重复子表达式(3) 自动微分Autodiff⭐特点说明自动追踪前向计算图→自动生成导数程序精确机器精度非近似高效重用冗余计算两种模式模式方向适用Forward Mode输入→输出f:R→RMf: \mathbb{R} \to \mathbb{R}^Mf:R→RM少输入多输出Backward Mode输出→输入f:RD→Rf: \mathbb{R}^D \to \mathbb{R}f:RD→R多输入少输出→DL专用14.2 前向追踪计算图 ⭐将计算分解为基本操作的序列v1 x1 v4 exp(v3) v2 x2 v5 sin(v2) v3 v1 * v2 v6 v4 v3 v7 v6 - v5 ( f)每个变量viv_ivi​是计算图的一个节点操作是有向边。14.3 反向传播伴随变量 ⭐⭐⭐核心递归公式定义伴随变量Adjointai∂f∂via_i \frac{\partial f}{\partial v_i}ai​∂vi​∂f​ai∑j∈Ch[i]∂vj∂vi⋅aja_i \sum_{j \in \mathbf{Ch}[i]} \frac{\partial v_j}{\partial v_i} \cdot a_jai​j∈Ch[i]∑​∂vi​∂vj​​⋅aj​Ch[i]\mathbf{Ch}[i]Ch[i]viv_ivi​的子节点集合被viv_ivi​影响的后继变量从输出向输入递归算法步骤前向计算所有viv_ivi​的值并缓存初始化afinal1a_{final} 1afinal​1∂f∂f1\frac{\partial f}{\partial f}1∂f∂f​1反向遍历按拓扑逆序计算每个aia_iai​梯度输入变量对应的aia_iai​即所求梯度关键观察单输出→只需维护一个伴随变量多路径→梯度累加sum over children需缓存/重算中间变量值14.4 神经网络中的反向传播单隐藏层网络梯度yσ(W(2)σ(W(1)x))y \sigma(W^{(2)}\sigma(W^{(1)}x))yσ(W(2)σ(W(1)x))对W(1)W^{(1)}W(1)的偏导∂E∂Wij(1)∂E∂y⋅∂y∂z⋅∂z∂Wij(1)\frac{\partial E}{\partial W^{(1)}_{ij}} \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial z} \cdot \frac{\partial z}{\partial W^{(1)}_{ij}}∂Wij(1)​∂E​∂y∂E​⋅∂z∂y​⋅∂Wij(1)​∂z​外层导数→内层导数→链式法则嵌套Autodiff自动处理所有嵌套为什么反向模式高效深度网络f:RD→Rf: \mathbb{R}^D \to \mathbb{R}f:RD→R百万参数→单一损失反向模式一次遍历→O(D)\mathcal{O}(D)O(D)计算所有梯度前向模式需O(D)\mathcal{O}(D)O(D)次遍历→不适合DL14.5 PyTorch中的Autogradloss.backward()# 自动反向传播→计算所有参数的.grad追踪requires_gradTrue的tensor构建动态计算图backward()触发反向遍历→填充.grad属性笔记中的图片索引序号图片内容描述来源位置图1三种微分方法对比Lecture 14 第10-18页图2前向计算图追踪Lecture 14 第20页图3反向伴随变量传播全过程Lecture 14 第24-34页笔记整理时间2026年6月29日

相关新闻