神经网络与深度学习课程第三周课程总结-尧图网站设计

一、为什么需要TransformerTransformer是Google团队在2017年提出的论文名为《Attention Is All You Need》。它的最大创新是完全抛弃了RNN和CNN只靠注意力机制来完成序列建模。相比RNNTransformer有两个主要优势并行计算能力强不用按时间步一步一步算非常适合GPU训练。长距离依赖建模能力强自注意力可以直接看到序列中任意两个位置的关系缓解了长序列中的梯度消失问题。二、整体长什么样Transformer采用经典的编码器-解码器架构可以分为四块输入部分词嵌入位置编码编码器N个相同层堆叠每层包含多头自注意力和前馈网络解码器N个相同层堆叠每层包含掩码自注意力、编码器-解码器注意力和前馈网络输出部分线性层 Softmax三、输入部分让模型“看懂”文本3.1 词嵌入Word Embedding文本不能直接喂给模型要先转成向量。流程如下分词把句子切成token序列对齐用填充或截断让一批样本长度相同独热编码每个token变成高维稀疏向量嵌入映射通过可学习的嵌入矩阵变成低维稠密向量假设词表大小是 V嵌入维度是 dtoken的独热向量为 ei∈RV嵌入矩阵为 E∈Rd×V则词嵌入为3.2 位置编码Positional Encoding自注意力本身不包含顺序信息所以需要加入位置编码。最终的输入是Transformer使用的是正弦位置编码其中 pos 是位置索引i 是维度索引d 是模型维度。四、编码器理解输入序列4.1 自注意力机制Self-Attention自注意力的目标是根据上下文动态调整每个token的表示。对每个输入向量我们会生成三个新向量查询向量 Q键向量 K值向量 V计算公式其中 dk 是键向量的维度除以 dk 是为了稳定梯度。4.2 多头注意力Multi-Head Attention把多个注意力头并行计算每个头用不同的线性变换多头注意力的好处是模型可以从不同的语义子空间去关注信息。4.3 Add Norm 和前馈网络每个子层后面都有残差连接和层归一化。前馈网络FFN是两层全连接中间用ReLU五、解码器生成目标序列解码器在编码器的基础上增加了两个关键点掩码自注意力保证当前位置只能看到之前已生成的部分防止未来信息泄露。具体做法是把未来位置的注意力分数设为 −∞Softmax后权重趋近于0。编码器-解码器注意力查询来自解码器键和值来自编码器的输出用来实现源语言和目标语言的对齐。六、输出部分得到最终预测输出部分包含一个线性层和一个Softmax线性层把解码器的输出映射到词表大小Softmax转换成概率分布设解码器输出为 htht则预测概率为训练时使用交叉熵损失

神经网络与深度学习课程第三周课程总结

相关新闻

别再只测单接口了！用Postman Runner给你的图书管理系统做个‘压力体检’

毕业设计救星：手把手教你用ESP32+DHT11+OLED搭建物联网环境监测站（附阿里云平台配置）

Sora 2赋能高定珠宝展示：从建模到光影渲染的7步工业级落地流程（附实测参数清单）

OBS Studio插件生态：从直播新手到专业创作者的完整升级指南

TradingAgents-CN完整指南：5步搭建你的AI量化投资分析平台

pi-subagents 代码审查：保持代码质量的完整审查流程

【CP-10】通信实战 - 多路CAN路由与网关设计

【COZE-09】多Agent协作 - 构建智能体团队

魔兽争霸3优化终极指南：5分钟解决闪退卡顿，畅玩经典游戏

036、模糊PID控制器设计

别只调学习率了！深入YOLOv8源码，看懂NMS与IoU的底层实现与优化

Lens-Turbo 整合包发布：解压即用，文生图、图生图。12G 显存畅玩 AI 视觉生成（完美适配 50 系显卡）

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源