
背景知识构建多模态线性线性模型主要有两种方法方法 A统一Embedding解码器架构方法方法 B跨模态注意力架构方法前排提示文末有大模型AGI-CSDN独家资料包哦多模态预训练架构tokenizerImage vs text tokenization在图像编码器之后添加了一个投影模块。这个投影模块通常只是一个与前面解释的类似的线性投影层。其目的是将图像编码器的输出投影到与嵌入文本标记尺寸相匹配的维度上图像patch embedding与文本token embedding具有相同的embedding维度将它们连接起来作为 LLM 的输入cross attentionTransformer 架构中使用的交叉注意力机制将图像patch token投影到与文本标记嵌入相同的维度后将它们连接起来作为标准 LLM 的输入。跨模态注意力架构方法中不再将图像块编码为 LLM 的输入而是通过交叉注意力机制将多头注意力层的输入图像块连接起来Kimi K2.5Kimi K2.5 基于Kimi K2 MoE 大模型文本底座是一个原生多模态模型融合MoonViT-3D 原生分辨率视觉编码器“视觉编码器 - MLP 投影层 - 文本 MoE 模型” 的统一多模态架构同时设计了分阶段的训练流水线和高效的训练基础设施。kimi k2是deepseek v3的放大版文本基座模型Kimi K2 MoE 模型激活参数 320 亿384 个专家每个token激活 8 个专家稀疏度 48预训练采用了15 万亿高质量文本token。支持 256k 超长上下文为长文本 / 长视频理解奠定基础。模型架构属性值架构Mixture-of-Experts (MoE)总参数量1T激活参数量32B总层数含稠密层61稠密层数量1注意力隐藏维度7168MoE 隐藏维度每专家2048注意力头数64专家总数384每 Token 选中专家数8共享专家数1词表大小160K上下文长度256K注意力机制MLA激活函数SwiGLU视觉编码器MoonViT视觉编码器参数量400M采用token-efficient的MuonClip优化器替换掉AdamW优化器后者容易在出现注意力logit爆炸从而导致loss spike。在训练过程中将视觉token与文本标记token一起传递,消融研究实验发现表明模型可以从预训练早期看到视觉标记中受益在训练过程中视觉token数量固定的情况下如果在预训练初期向模型展示较少数量的视觉token而不是在后期添加更多视觉token则模型性能会得到提升Setp 3.5 FlashStep 3.5 Flash 在 128k 上下文长度下吞吐量为 100 个token/秒采用了Deepseek同款Multi-token PredictionStep 3.5 Flash 在训练和推理过程中使用带有3个附加token的 MTPMTP-3Multi-token Prediction原理多token预测Multi-token Prediction让模型在训练时一次性预测多个未来token而不是仅仅预测下一个tokenMulti-token Prediction模型架构共享主干Shared Trunk模型的主体部分是一个Transformer结构用于提取输入文本的特征表示。独立输出头Independent Output Heads在共享主干的基础上为每个待预测的token都设置一个独立的输出头。这些输出头并行工作预测对应的未来token。Unembedding层每个输出头后面跟着一个Unembedding层将Transformer的输出转换成词表空间vocabulary space。损失函数使用交叉熵损失函数来衡量模型预测的准确性。内存优化为了解决多token预测带来的内存消耗问题提出了一种内存高效的实现方法。前向和反向传播顺序调整**在计算梯度时模型会依次计算每个输出头的梯度而不是一次性计算所有头的梯度从而避免了同时存储所有输出头的梯度信息降低GPU内存占用**。推理加速自推测解码Self-Speculative Decoding利用多token预测的额外输出头进行自推测解码从而加速推理过程。工作原理先用多个输出头并行预测多个token然后用主输出头next-token prediction head验证预测结果并选择最有可能的预测结果多token预测与常规下一token预测的比较。最初MTP 仅用于训练阶段而不用于推理阶段因此推理时间步底部仅显示一次下一词元预测。GLM-5GLM-5采用了78层Transformer解码器前三层为Dense结构第四层及以后采用Mo架构expert数量从 160 个GLM-4.7增加到 256 个GLM-5处理单个token激活其中8个expert1个共享专家保证基础能力稳定,但是GLM-5 中 Transformer 层数从 GLM-4.7 的 92 层减少到了 78 层可能是为了推理效率的考虑GLM-4.7 和GLM-5模型架构对比GLM-5 和 DeepSeek V3.2 模型架构对比Minimax M2.5从架构上看MiniMax M2.5 是一款 230B 型号采用相当经典的设计只有简单的分组查询注意力机制没有滑动窗口注意力机制或其他效率改进Qwen3.5Qwen3.5 从代码结构上看是Qwen 家族第一个原生多模态模型采用Gate AttentionGate DeltaNet混合注意力机制。Gate Attention在大语言模型持续向更大规模、更长上下文演进的过程中训练稳定性与注意力行为的可控性日益成为关键瓶颈,Qwen团队提出了Gate Attention率先用在了Qwen3 Next模型上面。详细解读可参考 https://mp.weixin.qq.com/s/EV/_fwU9muCocQiMCAsbYhA欠阿贝尔两块钱公众号AIGC面面观NIPS2025最佳论文 Qwen团队Gated Attentio精读LLM注意力机制再度突破qwen3 next模型架构Gate Attention视为 GQA 中使用的标准缩放点积注意力(Scaled Dot-Product Attention)机制并在此基础上进行了一些调整。门控注意力模块与普通 GQA 模块的主要区别在于一个输出门sigmoid 控制通常按通道用于在将注意力结果加回残差之前对其进行缩放QKNorm 的 RMSNorm 是以零为中心的 RMSNorm而不是标准的 RMSNormgate attention关键门控位置Gate Attention关键门控位置选择的关键原因在于此时添加门控可直接对SDPA的加权结果如SDPA前、Value层、SDPA输出后进行动态筛选避免无关信息进入后续计算若在SDPA前或Value层添加门控仅能对原始输入或单一Value向量处理无法基于完整的注意力权重整合结果做决策效果大打折扣。本质上只是对 GQA 的稳定性进行更改。对 150 亿 MoE 模型在不同位置应用门控后的性能比较测试 PPL 和 MMLU。在 SDPA 层之后应用门控G1可获得最佳的整体结果。在 Value 层之后应用门控G2也展现出显著的改进尤其是在 PPL 指标上在相同的超参数下对基线模型和应用 SDPA 门控的 17 亿密集模型在 3.5T 个 token 上的训练损失进行比较平滑处理系数为 0.9Gate DeltaNetGate DeltaNet 是一项更为显著的改进。在 DeltaNet 模块中、、 以及两个门α、β由线性轻量级卷积层生成并进行归一化处理而该层则用快速权重增量规则更新取代了注意力机制Gate DeltaNet 的Gate Attention与之前讨论的门控注意力机制类似不同之处在于它使用 SiLU 激活函数代替逻辑 sigmoid 激活函数Gate Attention与Gate DeltaNet的比较除了输出门之外Gate DeltaNet中的“Gate”还指代几个额外的门α衰减门控制着记忆随时间衰减或重置的速度。β更新门控制新输入对状态的修改强度。Qwen3.5 采用了与 Qwen3-Next 和 Qwen3-Coder-Next相同的混合注意力模型包含 Gated DeltaNetQwen3.5 与 Qwen3(-Coder)-Next 架构的比较Ling 2.5没有使用Gate DeltaNet而是采用了一种名为Lightning Attention的略微简单的循环线性注意力机制变体。此外Ling 2.5 还采用了来自 DeepSeek 的Multi-Head Latent Attention机制。Multi-Head Attention (MHA), Grouped-Query Attention (GQA), Multi-Query Attention (MQA), and Multi-head Latent Attention (MLA)对比Ling 2.5 与 Qwen 3.5 的比较两种架构都是线性注意力混合架构优势在于处理长上下文时效率极高与 Kimi K2参数量为 1T与 Ling 2.5 相同相比Ling 2.5 在 32k token 的序列长度下吞吐量提高了 3.5 倍。Ling 2.5 与 Kimi K2 的相对吞吐量对比参数规模均为 1 万亿请注意吞吐量已进行归一化处理Kimi K2 的吞吐量显示为 1 倍尽管图中看起来呈线性但 Kimi 的吞吐量并非线性关系既然看到这里了如果觉得不错随手点个赞、在看、转发三连吧如果想第一时间收到推送也可以给我个星标⭐谢谢你看我的文章下次再见读者福利倘若大家对大模型感兴趣那么这套大模型学习资料一定对你有用。针对0基础小白如果你是零基础小白快速入门大模型是可行的。大模型学习流程较短学习内容全面需要理论与实践结合学习计划和方向能根据资料进行归纳总结包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。大模型实战案例光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。大模型视频和PDF合集这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一跟着老师的思路由浅入深从理论到实操其实大模型并不难。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】61875?ops_request_miscrequest_idbiz_id102utm_term%E5%A4%A7%E6%A8%A1%E5%9E%8Butm_mediumdistribute.pc_search_result.none-task-blog-2allsobaiduweb~default-0-137261875.142%5Ev100%5Epc_search_result_base4spm1018.2226.3001.4187)获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】