神经网络与深度学习 课程 第三周 课程总结

发布时间:2026/6/2 1:04:04

神经网络与深度学习 课程 第三周 课程总结 一、为什么需要TransformerTransformer是Google团队在2017年提出的论文名为《Attention Is All You Need》。它的最大创新是完全抛弃了RNN和CNN只靠注意力机制来完成序列建模。相比RNNTransformer有两个主要优势并行计算能力强不用按时间步一步一步算非常适合GPU训练。长距离依赖建模能力强自注意力可以直接看到序列中任意两个位置的关系缓解了长序列中的梯度消失问题。二、整体长什么样Transformer采用经典的编码器-解码器架构可以分为四块输入部分词嵌入 位置编码编码器N个相同层堆叠每层包含多头自注意力和前馈网络解码器N个相同层堆叠每层包含掩码自注意力、编码器-解码器注意力和前馈网络输出部分线性层 Softmax三、输入部分让模型“看懂”文本3.1 词嵌入Word Embedding文本不能直接喂给模型要先转成向量。流程如下分词把句子切成token序列对齐用填充或截断让一批样本长度相同独热编码每个token变成高维稀疏向量嵌入映射通过可学习的嵌入矩阵变成低维稠密向量假设词表大小是 V嵌入维度是 dtoken的独热向量为 ei∈RV嵌入矩阵为 E∈Rd×V则词嵌入为3.2 位置编码Positional Encoding自注意力本身不包含顺序信息所以需要加入位置编码。最终的输入是Transformer使用的是正弦位置编码其中 pos 是位置索引i 是维度索引d 是模型维度。四、编码器理解输入序列4.1 自注意力机制Self-Attention自注意力的目标是根据上下文动态调整每个token的表示。对每个输入向量我们会生成三个新向量查询向量 Q键向量 K值向量 V计算公式其中 dk 是键向量的维度除以 dk 是为了稳定梯度。4.2 多头注意力Multi-Head Attention把多个注意力头并行计算每个头用不同的线性变换多头注意力的好处是模型可以从不同的语义子空间去关注信息。4.3 Add Norm 和前馈网络每个子层后面都有残差连接和层归一化。前馈网络FFN是两层全连接中间用ReLU五、解码器生成目标序列解码器在编码器的基础上增加了两个关键点掩码自注意力保证当前位置只能看到之前已生成的部分防止未来信息泄露。具体做法是把未来位置的注意力分数设为 −∞Softmax后权重趋近于0。编码器-解码器注意力查询来自解码器键和值来自编码器的输出用来实现源语言和目标语言的对齐。六、输出部分得到最终预测输出部分包含一个线性层和一个Softmax线性层把解码器的输出映射到词表大小Softmax转换成概率分布设解码器输出为 htht​则预测概率为训练时使用交叉熵损失

相关新闻