《强化学习及 DeepSeek》)
目录强化学习基础概念监督学习与强化学习的对比强化学习1.要素环境、智能体、状态、动作、奖励2.马尔可夫决策过程MDP3. 马尔可夫奖励过程MRP4. 价值函数4. 贝尔曼方程5. 马尔可夫决策过程MDP6. Q-Learning 算法7. DQN 算法8. 基于策略的方法与策略梯度9. Actor-Critic 算法10. PPO 算法DeepSeek 架构及训练方法DeepSeek 架构演进概述DeepSeek V3 架构DeepSeek R1 架构DeepSeek V3.2 架构总结第一部分讲强化学习基础概念第二部分介绍 DeepSeek 的一些主要架构以及涉及到的训练方法。强化学习基础概念监督学习与强化学习的对比1. 监督学习• 如同在老师指导下学习提供大量带标签数据。• 特点数据现成、样本独立、任务预测性。2. 强化学习强化学习1.要素环境、智能体、状态、动作、奖励2.马尔可夫决策过程MDP3. 马尔可夫奖励过程MRP• 要素四元组(S, P, R, γ)R 为奖励函数γ 为折扣因子。4. 价值函数4. 贝尔曼方程• 定义价值函数的递归结构。• 应用强化学习算法的理论基础。5. 马尔可夫决策过程MDP1定义引进动作的马尔可夫奖励过程。2要素五元组(S, A, P, R, γ)A 为动作集合。3策略与价值函数• 策略智能体根据当前状态选择动作的函数。• 状态价值函数与动作价值函数评估策略好坏的指标。4最优策略与贝尔曼最优方程• 最优策略最大化长期累积奖励的策略。• 贝尔曼最优方程描述最优价值函数的递归结构。6. Q-Learning 算法• 定义帮助智能体学会最优策略的经典强化学习算法。• 核心思想学会 Q 表存储状态下做动作的长期奖励。• 更新公式使用目标值与 TD 误差更新 Q 值。• 学习过程初始化 Q 表、观察状态、选择动作、更新 Q 值。7. DQN 算法• 定义在 Q-Learning 基础上引入神经网络的算法。• 特点使用神经网络近似 Q 函数适用于连续或大规模状态空间。• 关键模块经验回放与目标网络。8. 基于策略的方法与策略梯度• 定义直接学习目标策略的方法。• 策略梯度参数化策略通过优化参数最大化期望回报。9. Actor-Critic 算法• 定义结合基于价值与基于策略的方法。• 核心Actor 负责选择动作Critic 负责评估策略表现。• 关键概念优势函数、TD 误差、策略更新方式。10. PPO 算法• 定义限制梯度更新幅度的策略优化算法。• 核心思想裁剪机制与小步快跑策略更新方式。• 应用大语言模型微调通过生成响应、获取反馈、调整模型流程优化性能。DeepSeek 架构及训练方法DeepSeek 架构演进概述• 时间线从 2024 年底到 2025 年底的架构版本演进。DeepSeek V3 架构• 特点MoE 架构超大规模参数但稀疏激活。• 核心设计MLA 与 MoE降低 Attention 计算显存占用。DeepSeek R1 架构• 基础基于 DeepSeek V3。• 核心差异训练目标转向推理能力引入 RLVR 训练方法。• RLVR基于可验证反馈信号的强化学习方法。DeepSeek V3.2 架构• 基础保留 MLA 与 MOE 基本架构。• 新增模块DSADeepSeek Sparse Attention降低长上下文推理计算与显存成本。• DSA 计算流程Token embeddings 输入Lighting Indexer 模块计算相关性Top-K Selector 保留得分最高历史 token构建 Sparse Attention Mask在稀疏 mark 上执行注意力计算。总结本文介绍了强化学习基础概念和DeepSeek架构演进。强化学习部分对比了监督学习与强化学习阐述了马尔可夫决策过程、价值函数、贝尔曼方程等核心概念并详解了Q-Learning、DQN、策略梯度、Actor-Critic和PPO等算法。DeepSeek架构部分概述了从V3到R1再到V3.2的演进历程重点介绍了MoE架构、MLA模块、RLVR训练方法和新增的DSA模块后者通过稀疏注意力机制显著降低了长上下文推理的计算和显存成本。全文系统性地梳理了强化学习理论基础与DeepSeek架构的关键技术创新。