马尔可夫随机场:从图模型基础到推理算法的工程实践

发布时间:2026/5/24 10:51:32

马尔可夫随机场:从图模型基础到推理算法的工程实践 1. 马尔可夫随机场从图结构到概率依赖的建模哲学在机器学习和统计推断的世界里我们常常需要处理成百上千个相互关联的随机变量。想象一下你要分析一张图片中每个像素点的标签或者理解一段文本中每个词语的词性又或者推断社交网络中用户之间的潜在关系。直接为所有变量的联合分布建模其复杂度会随着变量数量呈指数级爆炸这就是所谓的“维度灾难”。概率图模型特别是马尔可夫随机场为我们提供了一把解开这个高维谜题的钥匙。它的核心思想异常直观用一个图结构来编码变量之间的条件独立性假设。图中的节点代表随机变量边则代表变量之间的直接依赖关系。这种表示方法的美妙之处在于它将复杂的全局依赖分解为一系列简单的局部交互使得模型的表示、学习和推理都变得可行。马尔可夫随机场作为无向图模型的代表不预设因果方向天然适合描述那些具有对称性依赖关系的系统比如物理系统中的粒子交互、图像中的空间相关性或者社交网络中的同质性效应。理解它不仅是掌握一系列算法更是获得一种对复杂系统进行结构化概率思考的思维方式。2. 核心概念与数学基础从图论到概率分解2.1 图结构与条件独立性马尔可夫随机场的理论基础建立在图论与概率论的交叉点上。给定一个无向图 (G (V, E))其中 (V) 是顶点集合代表随机变量 (X {X_v : v \in V})(E) 是边集合。MRF 满足的马尔可夫性可以表述为对于图中任意不相交的子集 (A, B, C \subset V)如果 (C) 在图 (G) 中分离了 (A) 和 (B)即所有连接 (A) 和 (B) 的路径都必须经过 (C)那么在给定 (X_C) 的条件下(X_A) 和 (X_B) 是条件独立的。这个性质将全局的依赖关系局部化是后续所有高效算法设计的基石。一个常见的误解是将图中的“边”直接等同于“强相关”。实际上边表示的是直接的交互或依赖。两个没有边直接相连的节点仍然可以通过路径间接影响但这种影响在给定路径上其他节点即分离集的条件下会被阻断。这种条件独立性的直观理解至关重要。例如在社交网络中你的朋友的朋友与你没有直接联系的观点在已知你所有直接朋友的观点后可能对你不再有额外的预测能力。2.2 Hammersley-Clifford 定理与吉布斯分布Hammersley-Clifford 定理是连接图结构与概率分布形式的桥梁。对于一个在有限状态空间上的正分布即所有可能配置的概率都大于零该定理指出该分布是关于图 (G) 的马尔可夫随机场当且仅当它可以被表示为吉布斯分布的形式。具体来说吉布斯分布的形式如下 [ P(X x) \frac{1}{Z} \exp\left( -\sum_{C \in \mathcal{C}} \psi_C(x_C) \right) ] 其中(\mathcal{C}) 是图 (G) 中所有极大团的集合。一个团是图中顶点的子集其中任意两点都有边相连。极大团是指不能再通过添加其他顶点而保持团性质的团。(\psi_C: \mathcal{X}_C \to \mathbb{R}) 是定义在团 (C) 的配置上的势函数或能量函数。它衡量该特定局部配置的“不友好”程度值越低表示该配置越可能发生。(Z \sum_{x \in \mathcal{X}} \exp\left( -\sum_{C \in \mathcal{C}} \psi_C(x_C) \right)) 是归一化常数也称为配分函数确保所有概率之和为1。这个定理的深刻含义在于任何满足图结构所蕴含的条件独立性的正分布其概率都可以分解为定义在局部团上的势函数之积的指数负和。这极大地简化了模型的参数化我们不需要直接指定整个高维空间的概率而只需要为每个通常很小的团定义势函数。注意定理中的“正分布”条件是关键。如果分布在某些配置上的概率为零那么吉布斯表示可能不唯一或者需要更复杂的处理。在实际应用中我们通常通过设计势函数来确保正性例如使用指数族形式的势函数。2.3 从有向到无向道德化与等价性有向图模型贝叶斯网络和无向图模型马尔可夫随机场各有千秋。有向图擅长表达因果关系和非对称依赖其联合分布自然地通过条件概率的链式法则分解。而无向图在表达对称的、循环的依赖关系时更为灵活。那么它们何时等价一个重要结论是对于树结构无环连通图有向和无向表示是等价的可以相互转换而不损失信息。这意味着仅从观测数据的联合分布中我们无法区分变量之间的因果方向。就像原文中那个经典的例子我们观察到“下雨”、“车窗湿了”、“雨刷开了”三者相关。但从联合分布本身我们无法推断出是“下雨”导致了“开雨刷”还是“开雨刷”导致了“车窗湿”进而错误地关联到下雨。要推断因果关系需要干预性数据比如主动把车开进车库阻止车窗被雨淋湿然后观察下雨的概率是否变化。对于更一般的图将一个有向图转换为一个保持其条件独立性的无向图的过程称为“道德化”。具体操作是1) 保留所有有向边并将其变为无向边2) 对于每个节点将其所有父节点两两用无向边连接起来。这样得到的“道德图”就是与原贝叶斯网络在条件独立性上等价的无向图。理解这种转换有助于我们在面对不同问题时选择合适的建模工具。3. 经典模型剖析伊辛模型与更一般的交互3.1 成对交互与伊辛模型在许多实际应用中我们主要考虑最多只涉及两个变量的交互即势函数仅定义在单点团和边团上。此时的吉布斯分布具有如下形式 [ P(X x) \frac{1}{Z} \exp\left( -\sum_{s \in V} h_s(x_s) - \sum_{{s,t} \in E} h_{st}(x_s, x_t) \right) ] 其中 (h_s) 是外部场或节点势倾向于让变量 (X_s) 取某个特定值(h_{st}) 是交互势鼓励或抑制相邻变量取相同或不同的值。伊辛模型是成对交互模型的一个特例也是统计物理和机器学习中的基石模型。它假设每个变量是二值的例如 (X_s \in {-1, 1})代表一个“自旋”。其概率分布为 [ P(X x) \frac{1}{Z} \exp\left( \beta \sum_{{s,t} \in E} J_{st} x_s x_t \sum_{s \in V} h_s x_s \right) ] 这里为了符合物理习惯通常写成正号。参数解读(J_{st})耦合强度。若 (J_{st} 0)模型是铁磁性的相邻自旋倾向于同向(x_s x_t 1) 能量更低概率更高若 (J_{st} 0)则是反铁磁性的倾向于反向。(h_s)外部磁场。若 (h_s 0)则倾向于让 (X_s 1)反之倾向于 (-1)。(\beta 1/(kT))逆温度。温度 (T) 越高(\beta) 越小系统越随机分布越接近均匀分布温度越低(\beta) 越大系统越倾向于低能量高概率的配置。在二维规则网格如棋盘格上各向同性的伊辛模型所有 (J_{st} J)所有 (h_s h)具有相变现象。当没有外部磁场(h0)时存在一个临界温度 (T_c)。低于 (T_c) 时系统出现长程有序大部分自旋同向高于 (T_c) 时系统处于无序状态。这种从有序到无序的相变行为使得伊辛模型成为研究复杂系统涌现行为的经典范例。3.2 波特斯模型伊辛模型的多状态推广伊辛模型局限于二值变量。波特斯模型将其推广到有限多个状态的情况即 (X_s \in {1, 2, ..., q})。其分布为 [ P(X x) \frac{1}{Z} \exp\left( \beta \sum_{{s,t} \in E} \delta(x_s, x_t) \sum_{s \in V} h_s(x_s) \right) ] 其中 (\delta(x_s, x_t)) 是克罗内克δ函数当 (x_s x_t) 时为1否则为0有时也取负号表示相同状态的能量奖励。因此交互项只奖励相邻节点处于相同状态的情况。波特斯模型广泛应用于图像分割每个状态代表一个分割区域、社区发现每个状态代表一个社区等问题。实操心得在图像分割中节点势 (h_s(x_s)) 通常来源于底层图像数据如像素颜色、纹理对标签 (x_s) 的似然度例如通过高斯混合模型得到而边上的交互势 (\beta \delta(x_s, x_t)) 则充当平滑先验鼓励相邻像素具有相同标签。参数 (\beta) 控制平滑强度(\beta) 太大可能导致过平滑忽略细节(\beta) 太小则可能导致分割结果噪声过多。通常需要通过交叉验证或经验来调整。3.3 连续与一般状态空间虽然上述讨论基于离散状态空间但马尔可夫随机场的框架可以扩展到连续状态空间如高斯随机场甚至更一般的测度空间。核心思想是将求和替换为积分将概率质量函数替换为概率密度函数。一个重要的特例是高斯马尔可夫随机场。假设 (X) 是一个服从多元高斯分布 (N(\mu, \Sigma)) 的随机向量。其概率密度函数可以写成吉布斯形式 [ p(x) \propto \exp\left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) \right) \exp\left( -\frac{1}{2} x^T \Sigma^{-1} x \mu^T \Sigma^{-1} x \right) ] 令 (J \Sigma^{-1})称为精度矩阵(h J\mu)则有 [ p(x) \propto \exp\left( -\frac{1}{2} x^T J x h^T x \right) ] 这正好对应一个成对交互的吉布斯分布其中节点势为 (h_s x_s)交互势为 (-\frac{1}{2} J_{st} x_s x_t)。关键的性质是在多元高斯分布中条件独立性与精度矩阵的零元对应。即(X_s) 与 (X_t) 在给定所有其他变量的条件下独立当且仅当精度矩阵中的元素 (J_{st} 0)。这使得高斯MRF的图结构构建变得非常直观图的边集由精度矩阵的非零非对角元决定。这种表示在空间统计、传感器网络和金融模型中非常有用。4. 推理的核心挑战与蒙特卡洛方法4.1 推理问题的本质配分函数与边际概率之困建立MRF模型后我们通常需要解决两类核心推理任务边际推断计算某个变量子集 (S \subset V) 的边际概率 (P(X_S x_S))。最大后验估计找到最可能的整体配置 (x^* \arg\max_x P(X x))。根据 Hammersley-Clifford 定理任何边际概率都可以形式化地写为 [ P(X_S x_S) \frac{\sum_{y: y_S x_S} \exp\left(-\sum_C \psi_C(y_C)\right)}{\sum_{y} \exp\left(-\sum_C \psi_C(y_C)\right)} \frac{Z_S(x_S)}{Z} ] 这里分子 (Z_S(x_S)) 是固定 (X_S x_S) 后的部分配分函数分母 (Z) 是全局配分函数。计算这些量的根本困难在于求和或积分是在所有未观测变量的指数级巨大状态空间上进行的。对于只有几十个二值变量的系统状态空间大小已达 (2^{10} \approx 10^3)对于图像分割问题百万像素状态空间大小是 (q^{10^6})完全无法直接计算。因此精确推理只适用于具有特殊结构如树结构的图。对于一般的带环图我们必须依赖近似推理方法。蒙特卡洛采样和变分推断是两大类主流方法。4.2 吉布斯采样从局部条件分布到全局样本吉布斯采样是马尔可夫链蒙特卡洛方法在MRF上的直接应用。其核心思想是构造一个马尔可夫链使其平稳分布恰好是我们目标MRF的分布 (\pi(x))。然后通过运行该链足够长时间后采集样本用这些样本的统计量来近似边际概率等期望。算法步骤如下初始化所有变量为某个配置 (x^{(0)})。对于迭代 (k 1, 2, ...) a. 随机或按某种顺序选取一个节点 (s)。 b. 根据所有其他变量当前值下的条件分布 (P(X_s | X_{\backslash s} x^{(k-1)}{\backslash s})) 来采样 (x_s^{(k)})。 c. 保持其他变量不变(x{\backslash s}^{(k)} x_{\backslash s}^{(k-1)})。对于成对交互的MRF单点条件概率的计算非常简便 [ P(X_s a | X_{\backslash s}) \propto \exp\left( -h_s(a) - \sum_{t \in N(s)} h_{st}(a, x_t) \right) ] 其中 (N(s)) 是节点 (s) 的邻居集合。我们只需要计算 (X_s) 所有可能取值下的非归一化概率然后归一化并采样即可。这个计算只涉及节点 (s) 及其邻居是局部的因此即使对于大规模图单次更新成本也很低。注意事项吉布斯采样的有效性依赖于链的混合时间即链需要运行多少步才能接近平稳分布。对于具有强相关性或多模态的复杂MRF如低温度下的伊辛模型混合时间可能非常长导致采样效率低下样本自相关性很强。判断链是否“收敛”是一个实践难题通常需要运行多条链、观察迹图或计算统计量如Gelman-Rubin统计量来辅助诊断。4.3 梅特罗波利斯-黑斯廷斯算法更灵活的提议吉布斯采样可以看作是梅特罗波利斯-黑斯廷斯算法的一个特例其中提议分布恰好是条件概率分布因此接受率总是1。更一般的MH算法允许我们设计更灵活的提议分布 (g(x \to y))从当前状态 (x) 提议一个新状态 (y)然后以概率 (\alpha(x, y) \min\left(1, \frac{\pi(y)g(y \to x)}{\pi(x)g(x \to y)}\right)) 接受该提议。在MRF的语境下一个常见的提议是“局部翻转”随机选择一个节点 (s)然后根据某个分布 (g_s)如均匀分布提议一个新的 (y_s) 值同时 (y_{\backslash s} x_{\backslash s})。此时的接受率简化为 [ \alpha \min\left(1, \frac{\pi_s(y_s | x_{\backslash s}) g_s(x_s)}{\pi_s(x_s | x_{\backslash s}) g_s(y_s)} \right) ] 其中 (\pi_s(\cdot | x_{\backslash s})) 是单点条件概率。如果选择 (g_s) 为均匀分布则 (g_s(x_s)/g_s(y_s)1)。MH算法的优势在于即使条件概率难以直接采样只要我们能计算其比值通常分子分母的配分函数 (Z_s(x_{\backslash s})) 会抵消就可以进行采样。4.4 加速策略克服多模态与慢混合对于复杂的MRF基本的单点更新MCMC可能陷入局部极值区域难以探索整个状态空间。以下是两种经典的加速技术1. 簇采样Swendsen-Wang算法该算法专为类似波特斯模型的吸引性模型设计。核心思想是引入辅助的“边变量”通过随机“冻结”或“连接”图中边将变量分成多个簇然后一次性翻转整个簇的状态。破边对于每条边 ({s,t})如果当前 (x_s x_t)则以概率 (p 1 - \exp(-\beta_{st})) 将该边“断开”设为0如果 (x_s \neq x_t)则边必须“连接”设为1。这里 (\beta_{st}) 是模型中的交互强度参数。识别簇根据连接边识别出图上的连通分量簇。整簇更新对每个簇独立地为其选择一个新状态从所有可能状态中均匀随机选取或根据节点势加权选取。 这个算法能实现大规模的状态跃迁特别适合在相变点附近采样能有效减少自相关性。2. 并行回火此方法通过同时模拟一系列不同“温度”下的分布来加速采样。我们构造一个扩展的系统包含 (M) 个副本第 (i) 个副本服从分布 (\pi_{\beta_i}(x) \propto [\pi(x)]^{\beta_i})其中 (1 \beta_1 \beta_2 ... \beta_M \ge 0)。高温(\beta) 小下的分布更平坦链混合更快。 算法在两种更新间交替副本内更新每个副本独立运行自己的MCMC如吉布斯采样。副本间交换尝试交换两个相邻温度副本 (i) 和 (i1) 的当前状态 (x^{(i)}) 和 (x^{(i1)})。接受交换的概率为 (\min(1, \frac{\pi_{\beta_i}(x^{(i1)}) \pi_{\beta_{i1}}(x^{(i)})}{\pi_{\beta_i}(x^{(i)}) \pi_{\beta_{i1}}(x^{(i1)})}))。 这样低温副本中陷入局部极值的状态有机会被“交换”到高温副本中从而快速跳出再通过交换机制传回低温副本。温度梯度的设置是关键通常需要调整使得相邻副本间的交换接受率在一个合理的范围内如20%-40%。5. 精确推理信念传播在无环图上的演绎对于树结构或因子图无环的MRF存在高效的精确推理算法即信念传播也称为和积算法。5.1 消息传递的基本原理信念传播的核心是一种分布式计算思想。每个节点通过与其邻居交换“消息”来逐步获得关于整个网络的全局信息。对于树消息传递两轮一次向上一次向下即可收敛。考虑一个由势函数 (\phi_s(x_s)) 和 (\phi_{st}(x_s, x_t)) 参数化的树结构MRF。定义从节点 (t) 发送到其邻居 (s) 的消息 (m_{ts}(x_s)) [ m_{ts}(x_s) \sum_{x_t \in \mathcal{X}t} \phi{st}(x_s, x_t) \phi_t(x_t) \prod_{u \in N(t) \setminus {s}} m_{ut}(x_t) ] 这个公式具有清晰的递归含义节点 (t) 发给 (s) 的消息汇总了以 (t) 为根的子树不包括 (s) 方向中所有变量对 (x_s) 的“支持”或“证据”。它等于对 (t) 的所有可能状态 (x_t) 求和求和项包含三部分1) (s) 和 (t) 之间的交互势 (\phi_{st})2) (t) 自身的节点势 (\phi_t)3) (t) 从其他所有邻居 (u)除了 (s)那里收到的消息 (m_{ut}(x_t)) 的乘积。消息传递从叶子节点开始叶子节点发给其唯一邻居的消息就是 (m_{ts}(x_s) \sum_{x_t} \phi_{st}(x_s, x_t)\phi_t(x_t))。消息像波浪一样向内部节点传递最终汇聚到某个根节点。5.2 边际概率与配分函数的计算一旦所有消息都计算完毕即算法收敛我们就可以轻松地计算单点边际概率信念 [ b_s(x_s) \propto \phi_s(x_s) \prod_{t \in N(s)} m_{ts}(x_s) ] 即节点 (s) 的信念是其自身势与所有传入消息的乘积再进行归一化。边联合边际概率 [ b_{st}(x_s, x_t) \propto \phi_s(x_s)\phi_t(x_t)\phi_{st}(x_s, x_t) \prod_{u \in N(s)\setminus{t}} m_{us}(x_s) \prod_{v \in N(t)\setminus{s}} m_{vt}(x_t) ]配分函数 (Z)在树结构中可以通过任选一个根节点 (r) 来计算。一种方法是计算根节点的信念 (b_r(x_r)) 后利用关系 (Z \frac{\prod_{s} \phi_s(x_s) \prod_{(s,t)} \phi_{st}(x_s, x_t)}{b_r(x_r) \prod_{t \in N(r)} m_{tr}(x_r)})对于某个特定的 (x_r)但更数值稳定的方法是在消息传递过程中逐步累积归一化常数。实操心得数值稳定性。消息是许多小概率的乘积极易导致数值下溢。标准做法是在传递每一步消息时都进行归一化即计算未归一化的消息 (\tilde{m}{ts}(x_s)) 后令 (m{ts}(x_s) \tilde{m}{ts}(x_s) / \sum{x_s} \tilde{m}_{ts}(x_s))。这不会影响最终边际概率的计算因为归一化常数会在后续计算中抵消。同时在计算信念时使用对数域计算将乘法和加法转化为对数的加法和log-sum-exp操作是处理大规模网络的必备技巧。5.3 从有向树到无向树算法的一致性如第2节所述对于有向树贝叶斯网络其联合分布可写为 (P(x) p_{s_0}(x_{s_0}) \prod_{(s \to t) \in E} p_{st}(x_t | x_s))。我们可以通过“道德化”将其转化为无向树其中势函数定义为对于根节点(\phi_{s_0}(x_{s_0}) p_{s_0}(x_{s_0}))对于每条边 ((s \to t))定义 (\phi_{st}(x_s, x_t) p_{st}(x_t | x_s))。对这个无向树运行信念传播计算得到的单点边际 (b_s(x_s)) 将精确等于有向树中的边际概率 (P(X_s x_s))。这验证了算法在不同表示下的统一性。6. 近似推理当图带环时信念传播还能用吗现实中的图模型常常带有环例如网格、社交网络、语义网络等。此时标准的信念传播算法不再保证收敛即使收敛其计算结果也不再是精确的边际概率。然而令人惊讶且极其有用的是在许多带环图上直接运行原本为树设计的信念传播算法此时称为循环信念传播往往能得到相当不错的近似结果。6.1 循环信念传播直觉与实现在带环图上我们简单地忽略环的存在仍然按照以下规则进行迭代更新初始化所有消息 (m_{ts}^{(0)}(x_s))例如设为均匀分布。对于每一次迭代 (n1,2,...)按某种顺序如随机或固定顺序更新所有方向的消息 [ m_{ts}^{(n)}(x_s) \frac{1}{Z_{ts}} \sum_{x_t} \phi_{st}(x_s, x_t) \phi_t(x_t) \prod_{u \in N(t) \setminus {s}} m_{ut}^{(n-1)}(x_t) ] 其中 (Z_{ts}) 是归一化常数确保 (\sum_{x_s} m_{ts}^{(n)}(x_s) 1)。当消息的变化小于某个阈值时停止或达到最大迭代次数。然后用收敛后的消息计算近似的信念 (b_s(x_s)) 和 (b_{st}(x_s, x_t))公式与树结构相同。为什么这能行得通一种直观解释是尽管图有环但消息传递在局部仍然传递着“软约束”信息。经过多次迭代这些信息能在网络中传播并达到某种平衡。从优化角度看LBP可以理解为在寻找一个称为Bethe自由能的非凸函数的一个固定点这个固定点对应着对真实边际分布的一种近似称为Bethe近似。6.2 收敛性与阻尼更新LBP并不总是收敛。对于具有强环或强相互作用低温、强耦合的模型消息可能会振荡甚至发散。一个简单而有效的稳定技巧是阻尼更新 [ m_{ts}^{(n), \text{new}} (1 - \lambda) m_{ts}^{(n), \text{raw}} \lambda m_{ts}^{(n-1)} ] 其中 (\lambda \in [0, 1)) 是阻尼因子。这意味着新消息是本次计算出的原始消息和上一轮旧消息的加权平均。通常取 (\lambda 0.5) 或更小值有助于促进收敛但可能会减慢收敛速度。常见问题排查如果LBP不收敛或结果异常可以尝试1) 增加阻尼因子2) 检查势函数的值是否过于极端例如某些配置的概率接近0或无穷大这可能导致数值不稳定需要对势函数进行适当的裁剪或平滑3) 尝试不同的消息更新顺序同步更新 vs. 异步更新4) 考虑使用更高级的变分推理方法或采样方法作为替代。6.3 广义信念传播与区域图近似LBP是更一般的区域图方法的一个特例。其思想是将复杂的带环图分解为一系列重叠的、更大的区域如环、团。在这些区域上定义“区域信念”并强制区域之间在重叠变量上的边际保持一致。通过在这些区域之间传递消息可以得到比标准LBP其区域是单点和边更精确的近似。广义信念传播通过解决一个约束优化问题来更新区域信念其计算复杂度更高但对于具有短环结构的图精度提升显著。7. 从推理到学习参数估计与算法选择实战指南在实际项目中我们不仅需要推理还需要从数据中学习模型的参数即势函数。这通常通过最大似然估计或其正则化版本如最大后验估计来完成。7.1 最大似然估计与梯度计算对于参数化的MRF例如 (\theta {\theta_s, \theta_{st}})分布为 (P(Xx; \theta) \frac{1}{Z(\theta)} \exp(\theta^T \phi(x)))其中 (\phi(x)) 是充分统计量向量。对数似然函数为 [ \mathcal{L}(\theta) \sum_{i1}^N \left[ \theta^T \phi(x^{(i)}) - \log Z(\theta) \right] ] 其梯度具有一个优美的形式 [ \nabla_{\theta} \mathcal{L}(\theta) \sum_{i1}^N \phi(x^{(i)}) - N \cdot \mathbb{E}_{P(X;\theta)}[\phi(X)] ] 也就是说梯度等于经验统计量数据中观察到的平均值减去模型期望统计量在当前参数下模型的期望值。这个性质是许多学习算法的基础。计算挑战计算经验统计量是平凡的但计算模型期望 (\mathbb{E}_{P(X;\theta)}[\phi(X)]) 需要在整个分布 (P(X;\theta)) 上求期望这又回到了棘手的推理问题。对于树结构我们可以用信念传播精确计算这些边际期望。对于带环图我们必须使用近似方法基于采样的方法用MCMC如吉布斯采样从当前模型 (P(X;\theta)) 中采集样本用样本均值来近似期望。这适用于随机近似算法。基于推理的方法用近似推理方法如循环信念传播计算出近似的边际信念 (b_s, b_{st})然后用这些信念来计算近似的期望统计量。这引出了对比散度或感知器式的学习算法。7.2 算法选择与实战建议面对一个具体问题如何选择推理和学习算法以下是一个决策参考图结构特性推荐推理方法说明与注意事项树或链精确推理信念传播和积算法结果精确计算高效线性时间。是首选。近似树环少且弱近似推理循环信念传播实现简单速度快在许多计算机视觉、编码问题中效果很好。注意监控收敛性。带环图中等规模近似推理循环信念传播、广义信念传播、变分法LBP是首选尝试。若不收敛或精度不足可尝试树重加权信念传播或均值场。大规模复杂图多模态蒙特卡洛采样吉布斯采样、MH、并行回火采样方法通用性强能渐近精确但计算成本高需诊断混合情况。并行回火适用于多模态。需要计算配分函数采样或高级变分法精确计算Z通常不可行。采样可用重要性采样或退火重要性采样。变分法可提供Z的下界。学习算法选择数据完备图结构已知使用基于梯度的方法如随机梯度下降搭配上述合适的推理算法来计算梯度中的模型期望。数据完备图结构未知属于结构学习问题非常困难。通常使用基于得分如BIC的搜索方法或基于正则化如L1的参数学习将不存在的边对应的参数推向零。数据有隐变量或缺失需要使用期望最大化算法在E步进行推理计算隐变量的后验在M步更新参数。最后的经验之谈在实际应用中我经常采用一种分层验证的策略。首先在小型合成数据集或问题的子集上用精确推理如果可能或长时间MCMC采样得到“黄金标准”结果。然后用这个标准来校准和验证我选择的近似算法如LBP的精度和可靠性。在模型开发阶段优先使用快速近似方法如LBP进行原型设计和参数调试。在最终部署或需要高精度结果的阶段再考虑使用计算成本更高但更可靠的MCMC方法。记住没有一种算法是万能的理解问题的本质和模型的结构特性是选择正确工具的关键。

相关新闻