
向量空间本章的问题背景之前我们介绍了用高斯消元、LU分解从计算层面求解Axb解决了怎么算的问题但没有回答解的结构是什么、为什么解是这样的问题。消元只能给出单个解而线性代数的核心是空间结构。方程组的解不是孤立的点而是空间中的集合。齐次方程Ax0的解是一个子空间。所有线性问题的本质都是向量空间与子空间的运算。向量空间和子空间a本节先定义向量空间再定义子空间为后续列空间、零空间、解空间打下全部基础。消元是计算工具解决怎么解向量空间是理论工具解决解是什么结构本节难度更高因为从具体计算进入抽象结构。b1标准向量空间的定义2向量空间的两大基本运算3向量空间的8条公理向量空间对加法、数乘封闭封闭性等于运算不出空间4扩展向量空间5子空间子空间大空间里的小空间必须过原点包含零向量平面/直线只要过原点就是子空间。6c矩阵A的列空间1问题Axb什么时候有解所有能让方程有解的b到底是什么集合最终我们会知道能让方程有解的b就是矩阵A列向量的所有线性组合这个集合就是列空间它是Rm的子空间。2超定方程组的可解性规律34列空间一定包含A的所有列列空间一定包含零向量满足子空间必要条件齐次方程Ax0永远有解零解。56列空间是子空间的严格证明7列空间是统一描述所有矩阵方程可解性的工具8总结d矩阵A的零空间1本小节背景上小节我们讨论了Axb有解时b必须是什么集合列的线性组合。本小节从对偶视角出发讨论另一个问题当b0齐次方程时解x是什么集合这个集合就是零空间N(A)它是理解线性方程组解结构、向量线性相关性的核心入口。2零空间的引入列空间的对偶3零空间的严格定义4零空间是子空间的严格证明封闭性5最小零空间列线性无关6非平凡零空间列线性相关7总结8补充方程组Ax0和Axb的解a本节背景之前讨论消元法只聚焦可逆方阵方阵满主元、存在逆Axb永远有唯一解。但工程、数据、神经网络绝大多数系数矩阵是矩形阵行数≠列、奇异方阵行线性相关主元不全无法求逆此时出现两类新问题Axb不一定有解有解时解不止一个。本节引入行最简矩阵R高斯消元最终最简形式拆分方程组为齐次Ax0零空间无穷解集合 非齐次Axb核心结论是非齐次全部解一个特解齐次通解。b1衔接可逆矩阵引出奇异/矩形矩阵与行最简R2可逆、奇异矩阵的零空间和列空间对比3完全解核心定理4Axb可解判定和3×4通用矩阵举例5总结c阶梯矩阵U和行最简矩阵R1本小节背景之前讨论的ALU分解仅限无需行交换、可逆方阵默认每一列都能选出主元。但实际工程、神经网络权重大多是m×n非方阵或奇异方阵。化简时会出现某一列主元候选位置及下方元素全为0无法通过行交换换入主元只能向右移动列序号在下一列选取主元由此诞生阶梯矩阵U。U仅能消去主元下方元素为进一步化简对U做两步处理主元归一化、主元上方元素归零得到行最简矩阵Rrref(A)。2广义分解定理PALU3由U化简行最简R两步变换可逆方阵结论4R与零空间的关联5总结d主变量和自由变量1本小节背景前面已经通过初等行变换得到行最简矩阵RAx0与Rx0同解但只完成矩阵化简无法快速写出齐次方程组全部解。原始方程未知数数量常常大于方程数量nm列数行数无法全部被主元约束。变量自然分为两类受主元方程严格限定的主变量、可以任意自由赋值的自由变量。本节依托R拆分变量给出标准化求零空间基的固定步骤。2主变量、自由变量划分规则3自由赋值法求解齐次通解4快速构造N矩阵小技巧5nm未知数方程数必有非零解e求解Ax b , Ux c, Rx d1本小节背景上节讨论了通过行最简区分主变量和自由变量用自由变量求出零空间全部解。但机器学习训练核心是非齐次方程Axb(b≠0)有两个难点①非齐次不一定有解即b不在C(A)时方程矛盾无解②有解时解不构成子空间无法只用零空间描述全部解。2非齐次必须同步变换右端b由[A | b]→[U | c]3列空间两种等价描述代数约束 向量张成45再化简[U | c] → [R | d]行最简快速读取特解6总结7实战例子f补充1234567891011121314线性无关、基和维数a本节背景b1线性无关的核心定义2线性相关性的几何直观3线性无关与零空间的等价关系4阶梯矩阵的线性无关性5核心定理6总结c张成子空间1本小节背景上一小节解决了向量组有没有冗余的问题线性相关/线性无关但还没回答两个核心问题①一组向量能覆盖多大的空间即所有可能的线性组合构成什么集合②用最少多少个向量就能完整描述这个空间这两个问题引出了两个核心概念张成子空间覆盖多大和基最少多少个。基是线性代数的坐标系空间中的每个向量都可以唯一地表示为基向量的线性组合这是后续坐标转换、线性变换、特征值分解等所有内容的基础。2张成子空间定义3矩阵的列空间和行空间4标准基张成全空间d向量空间的基1基的定义及两个核心性质2基的表示唯一性3平面基的直观理解4列空间基的通用求法e向量空间的维数1本小节背景基中向量的个数是空间本身的性质与基的选择无关这个数就是维数它描述了空间的自由度。2维数的核心定义3基的个数唯一性4基的构造定理f补充123456789101112四种基本子空间a本节背景b四个基本子空间的定义与所属空间→补充12四个基本子空间3维数的直观推导cA的行空间1本小节背景高斯消元法的每一步都是行的线性组合而行的线性组合不会改变行空间。也就是说A和它的阶梯形U、行最简形R有完全相同的行空间。阶梯形U中的r个非零行就是行空间的一组基。2dA的零空间1本小节背景高斯消元法是可逆变换不改变线性方程组的解所以Ax0和Ux0、Rx0有完全相同的解空间。2eA的列空间1本小节背景A和U的列空间不同消元是行变换会改变列向量但A和U的列之间有完全相同的线性相关关系。也就是说如果A的某几列线性相关那么U的对应列也线性相关且系数相同反之亦然。2fA的左零空间g逆的存在性1本小节背景我们通过秩的概念刻画了矩阵的四个基本子空间。接下来通过秩解决线性代数的核心问题什么样的矩阵有逆矩阵之前我们对逆矩阵的认识停留在“方阵且行列式不为零”但其有局限为什么非反阵没有双边逆非方阵是否可以有某种单边逆逆矩阵的存在性和线性方程组解的性质如何联系本节的核心是建立秩-逆存在性-线性方程组解之间的对应关系。2左逆与右逆的基本性质3行满秩与右逆解的存在性4列满秩与左逆解的唯一性56单边逆的显式公式7方阵的双边逆8范德蒙德矩阵9总结h总结12345678910图与网络线性变换神经网络的数学基础神经网络所需的函数a一次函数b二次函数c单位阶跃函数d指数函数与sigmoid函数e正态分布概率密度函数f有助于理解神经网络的数列和递推关系式子a问题背景神经网络的计算特征是按层、按神经元顺序计算后一层的值完全依赖前一层的结果这种顺序依赖、逐步推导的逻辑在数学上正好对应数列与递推关系式。同时计算机/硬件不擅长复杂导数计算但极擅长递推迭代而神经网络的核心训练算法误差反向传播BP本质就是递推关系式的硬件落地。本节的核心任务是1用数列描述神经网络分层、按单元的有序计算2用递推关系式刻画层间信号依赖3证明递推是计算机最擅长的计算为BP算法打下数学与硬件基础。b神经网络前向传播、反向传播都是从前往后/从后往前逐步算完全符合递推逻辑。硬件计算痛点是求导需要复杂运算递推只需要迭代赋值效率提升百倍。cd通项公式e递推公式f联立递推g要点递推是硬件最优计算范式神经网络训练/推理靠递推。神经网络经常用到的Σ符号ab有助于理解神经网络的向量基础a向量内积b柯西-施瓦茨不等式c内积的坐标表示→内积空间→内积的定义de张量有助于理解神经网络的矩阵基础神经网络的导数基础a本节背景神经网络的自学习数学本质就是对权重w、偏置b做最优化也就是最小化预测值与真实值的误差代价函数。而求导是求解函数最小值、实现梯度下降、误差反向传播的唯一核心数学工具。没有导数神经网络就无法自主更新参数、无法学习。本节讨论导数定义、核心公式、线性性质、Sigmoid求导、函数最小值的导数条件。b导数的定义c导数符号d导数的性质e分数函数导数 Sigmoid函数导数激活函数核心Sigmoid是神经网络最早、最基础的激活函数其导数不用重新计算直接用自身函数值就能算出。f最小值条件导数为0不一定是最小值可能是极大值、驻点神经网络的偏导数基础a本节背景前面讲述了单变量函数的导数但神经网络的参数是成千上万的权重w和偏置b代价函数是多变量函数单变量导数完全无法描述误差随某一个权重/偏置的变化率。因此本节把单变量导数推广到多变量定义偏导数给出多变量函数最小值的数学条件补充带约束的优化方法。b多变量函数c偏导数的定义1求导的方法也同样适用于多变量函数的情况但是,由于有多个变量, 所以必须指明对哪一个变量进行求导在这个意义上,关于某个特定变量的导数就称为偏导数(partial derivative)2d多变量函数的最小值条件e拉格朗日乘数法误差反向传播法必需的链式法则a本节背景神经网络单个神经元输出激活 (加权和)加权和是输入的线性函数激活是 z 的非线性函数天然构成复合函数。多层网络层层嵌套是超长复合函数。想要用梯度下降更新w、b、求解代价函数对参数的偏导BP算法核心必须依靠链式法则拆分复杂求导。本节所有函数充分光滑保证各阶导数存在是法则适用的前提。b神经网络和复合函数c单变量链式法则d多变量链式法则梯度下降法的基础多变量函数的近似公式a本节背景bc单变量近似公式d二元函数近似e多元函数近似f总结g补充梯度下降法的含义与公式a本节背景之前已经完整学习了偏导数、多变量函数一阶近似、向量内积而本节综合使用它们引出梯度下降法也是整个深度学习最核心的算法。应用数学最重要的任务之一是找函数最小值。多变量函数取最小值的必要条件是所有偏导数都为0但在神经网络代价函数中往往包含数百万个权重和偏置是一个超高维非线性函数直接联立求解偏导为0的方程组是不可能的。因此需要一种迭代式的近似求解方法不用一步到位找到最小值而是每次往让代价变小变快的方向走一小步反复迭代直到收敛。b1梯度下降法的核心思路2近似公式与内积的关系3向量内积的关键性质4二变量函数梯度下降法基本式5梯度下降法的迭代流程6推广到n个变量的情况7哈密顿算子8学习率用excel体验梯度下降法a最优化问题和回归分析