
1. 量子机器学习中的泛化难题与核心思路量子机器学习尤其是基于参数化量子电路的变分算法近年来在量子化学模拟、优化问题求解等领域展现出巨大潜力。但一个核心的、常被初学者甚至部分从业者低估的挑战是我们训练好的模型真的能处理那些训练时没见过的数据吗这就是所谓的“分布外泛化”问题。想象一下你教会一个量子模型识别某种特定磁场下的自旋态但当你把它放到一个完全不同的磁场环境中它是否还能准确工作这直接决定了量子机器学习模型的实用价值。传统经典机器学习中我们通常假设训练数据和测试数据来自同一个概率分布。但在量子领域尤其是处理量子态和酉演化时这个假设非常脆弱。量子系统的希尔伯特空间维度随比特数指数增长我们不可能、也负担不起用覆盖整个空间的“Haar随机”态来训练。因此我们必须寻找一种“聪明”的数据采样策略用有限的、易于制备的训练态去逼近在整个巨大状态空间上的平均表现。这引出了本文要探讨的核心如何设计训练数据的分布Q使得在其上训练得到的模型在另一个不同的目标分布P通常是Haar随机或某个物理相关的分布上也能有良好的性能研究发现关键在于“局部打乱”这一特性。如果一个量子态集合是局部打乱的那么在其上定义的经验风险函数可以为我们提供关于在全Haar随机态上真实风险的一个可控的上下界。这就好比你不需要尝遍世界上所有的苹果才能知道苹果的味道只要你尝的苹果是经过充分“混合”局部打乱的、有代表性的一小部分你就能对“苹果”这个整体有一个相当准确的判断。这个理论为我们从有限的、可控的实验数据中推断模型在广阔未知领域的表现提供了坚实的数学基础。然而物理系统往往自带对称性比如粒子数守恒对应的U(1)对称性。一个很自然的想法是既然我们只关心某个对称性子空间内的演化那么把训练数据也限制在这个子空间内岂不是更高效、更精准但令人惊讶的是理论和数值实验都表明对于由浅层随机量子电路生成的、具有U(1)对称性的训练数据其泛化到同一对称性子空间内其他态的能力甚至可能比用完全无结构的乘积态训练还要差。这背后的原因在于浅层电路受限于其“光锥”结构无法在有限深度内将局域信息充分“打乱”到整个系统因此无法形成真正意义上的局部打乱集合。这提醒我们在利用对称性简化问题时必须谨慎选择训练数据的生成方式。2. 理论基础从风险函数到局部打乱集合要理解分布外泛化我们必须从风险函数的定义说起。在量子编译或酉学习任务中我们的目标是让参数化量子电路 V(θ) 逼近一个目标酉矩阵 U。一个最直接的成本函数是希尔伯特-施密特距离的变体它忽略了全局相位C(U, V(θ)) 1 - (1/N²) |Tr[U†V(θ)]|²这个函数在理论分析中很漂亮但在实验上几乎无法直接测量因为它需要计算两个大矩阵的完整迹。因此我们转向更实际的“期望风险”函数。我们不再要求V(θ)在所有可能的输入上都完美匹配U而是要求它在某个量子态分布 Q 上的平均表现良好R_Q(θ) E_{ψ∼Q} [ 1 - |⟨ψ| U†V(θ) |ψ⟩|² ]这里的期望是对分布 Q 取的。R_Q(θ) 的值在0到1之间0表示在分布Q上完全匹配。当我们拥有一个包含K个态的数据集 D_Q {|ψ_k⟩} 时我们可以计算经验风险C_{D_Q}(θ) 1 - (1/K) Σ_{k1}^K |⟨ψ_k| U†V(θ) |ψ_k⟩|²这是对真实期望风险 R_Q(θ) 的一个无偏估计。现在最理想的情况是 Q 就是整个希尔伯特空间上的Haar随机分布 P_Haar。此时R_{P_Haar}(θ) 直接联系到平均Haar保真度。但制备Haar随机态需要指数级的资源完全不现实。注意这里有一个关键但易混淆的点。成本函数 C(U, V) 和经验风险 C_{D_Q}(θ) 形式相似但内涵不同。前者是一个确定的、针对两个算子的全局度量后者是一个统计估计量其好坏取决于采样分布 Q 的性质。优化后者是为了让前者在某种平均意义上最小化。那么是否存在一个“简单”的分布 Q使得 R_Q(θ) 能够很好地近似 R_{P_Haar}(θ) 呢答案是肯定的这类分布就是“局部打乱集合”。定义 2.1 局部打乱酉集合一个酉集合 U_LS 被称为局部打乱的如果对于从中随机抽取的酉算子 U以及任意固定的单比特随机酉算子 U_1, ..., U_n复合后的算子 U · (⊗_{i1}^n U_i) 仍然服从与原集合相同的分布。简单说就是在前端或后端乘上任意局域随机酉不会改变算子的统计特性。定义 2.2 局部打乱态集合通过对一个固定的参考态比如全|0⟩态作用一个局部打乱的酉集合而得到的态集合S_LS {U|0⟩^⊗n | U ∼ U_LS}。局部打乱的核心思想是“充分的随机性”。它要求集合中的元素在经历了任意的局域“扰动”后其统计性质保持不变。这确保了从该集合中采样到的态已经失去了所有局域的、特定的信息从而能够代表整个希尔伯特空间中“典型”的态。基于此有一个强有力的定理定理 A.3如果 Q 是一个局部打乱集合那么由它定义的风险 R_Q(θ) 与由Haar随机分布定义的风险 R_{P_Haar}(θ) 满足如下不等式关系(1/2) R_{P_Haar}(θ) ≤ [N/(N1)] R_Q(θ) ≤ R_{P_Haar}(θ)这个关系意味着在局部打乱集合 Q 上评估的风险与在全空间Haar分布上评估的真实风险最多只相差一个与系统尺寸 N 相关的常数因子对于多比特系统N/(N1)接近1。这是一个非常强的保证。它告诉我们只要你用的训练数据来自一个局部打乱的集合那么你在这个小数据集上得到的训练损失经验风险就能很好地反映模型在全体可能输入上的真实表现。这从根本上证明了用有限数据实现有效泛化的可能性。更进一步的推论推论 A.4给出了一个实用的上界。假设我们使用一个包含 T 个参数化门的电路在 K 个来自局部打乱集合 Q 的态上训练并得到了最优参数 θ*。那么对于另一个可能不同的局部打乱目标分布 P其真实风险可以被经验风险和一个与模型复杂度、数据量相关的项所控制R_P(θ*) ≤ 2 C_{D_Q}(θ*) O( √(T log T / K) )这个公式极具指导意义泛化误差分布P上的风险主要受两项控制。第一项是训练误差分布Q上的经验风险这要求我们的优化算法要足够好。第二项是一个统计项它随着训练数据量 K 的增大而减小但随着模型参数数量 T 的增大而增大。这完美体现了机器学习中的偏差-方差权衡。为了获得好的泛化我们既需要让模型在训练集上足够精确低偏差也需要控制模型的复杂度并拥有足够的数据低方差。3. 对称性的陷阱为何U(1)对称性会破坏泛化对称性在物理中是简化问题的利器。在量子机器学习中一个很自然的思路是如果目标系统具有某种对称性例如U(1)粒子数守恒那么我们应该将训练数据也限制在具有相同对称性的态上这样不是更能聚焦问题、提升学习效率吗然而理论和实验都给出了反直觉的答案这样做有时反而会严重损害模型的分布外泛化能力。我们以具有全局U(1)对称性的系统为例比如海森堡模型。假设我们想编译一个该系统的时间演化算子。我们考虑两种训练数据来源一种是完全随机的乘积态来自 S_{Haar^⊗n}另一种是严格限制在特定粒子数 sector比如半填充内的、由浅层随机量子电路生成的随机态来自 S_{U(1), RQC}。直觉上后者似乎更“相关”。但数值模拟显示用后者训练得到的模型即使在同一个对称性子空间内测试其长时动力学预测也会完全失败。而用前者看似无关的随机乘积态训练出的模型却能准确地预测对称性子空间内的演化。这强烈暗示问题出在训练数据集合本身的性质上。定理 3.1 浅层U(1)随机量子电路无法形成局部打乱集合一个深度 τ nn为比特数的、保持U(1)对称性的随机量子电路其输出的态集合不是局部打乱的。证明思路反证法考虑一个极端局域化的态例如 |1000...⟩⟨1000...|其中只有一个比特为1。对于一个Haar随机电路这个“电荷”即粒子会被迅速打乱并均匀扩散到整个系统。然而对于一个深度有限的随机量子电路信息的传播受限于因果光锥。在深度 τ 内初始位于某个位置的信息最多只能传播 τ 距离。因此只要电路深度 τ 小于系统尺寸 n这个电荷就无法到达所有位置。这意味着由浅层U(1)电路生成的态集合其期望的电荷分布 EU∼U_RQC[UρU†] 与由Haar随机电路生成的 EU∼U_Haar[UρU†] 是不同的。根据局部打乱的定义这直接证明了该集合不具备局部打乱性。实操心得这个结论非常关键。它告诉我们“随机”不等于“局部打乱”。即使你用了随机量子电路如果它的深度不够并且受到对称性约束它产生的态在统计上仍然是“有结构”的不足以代表整个希尔伯特空间或其对称性子空间的典型特性。这种结构性的缺失导致了基于它的经验风险无法有效逼近真实风险从而泛化失败。对于矩阵乘积态MPS生成的数据集也有类似的结论。固定键维 χ 的随机MPS集合同样因为其有限的光锥和纠缠结构无法在深度不足时形成局部打乱集合。因此要在具有对称性的系统中实现良好的泛化训练数据必须由足够深深度至少为 Ω(n)的随机电路生成以确保信息能够遍历整个系统破坏任何局域的结构性关联从而逼近局部打乱的性质。这解释了为什么在海森堡模型的编译实验中使用无结构的随机乘积态作为训练数据反而比使用看似更相关的、浅层对称性态效果更好——因为乘积态集合在经过目标酉演化后更容易具备所需的“打乱”特性。4. 贫瘠高原的挑战与“热启动”优化策略即使我们拥有了理论上能保证泛化的训练数据训练过程本身也充满挑战。最著名的难题就是“贫瘠高原”。在参数化量子电路中当系统规模较大时成本函数关于参数的梯度方差会随比特数指数级衰减导致优化过程如同在几乎平坦的高原上寻找低谷梯度信号微乎其微使得基于梯度的优化算法几乎失效。对于全局成本函数如我们使用的保真度即使电路深度只有 O(log n)贫瘠高原也可能出现。一种常见的缓解思路是使用局部成本函数例如对每个局域可观测量的损失求和。这确实能缓解梯度消失但带来了两个新问题1) 计算成本显著增加因为需要对每个比特或每个局域区域进行测量2) 学习效率可能降低因为优化的目标局部可观测量之和与最终目标全局保真度没有直接对齐不是“端到端”的优化。幸运的是量子时间演化这类问题具有特殊的结构可以被用来设计高效的“热启动”初始化策略从而绕过或减轻贫瘠高原。这些策略的核心思想是从一个相对简单、易于优化的问题开始逐步“生长”到目标复杂问题并利用前一步的解来初始化下一步的优化。这类似于迁移学习的思想。4.1 Trotter分解初始化这是最直观的方法。对于目标时间演化 U(t) exp(-iHt)我们可以使用 p 阶 Trotter-Suzuki 分解来构造一个初始电路 V_init(θ)。这个初始电路的参数 θ 是确定的由 Trotter 公式给出而非随机初始化。它的优势在于确定性结果可重复且初始保真度可控。高阶 Trotter 分解如 p2通常能提供比低阶p1好得多的起点。与物理相关初始电路本身就近似于目标演化为优化提供了一个靠近全局最小值的起点。然而它的缺点是 Trotter 电路的结构可能与我们要训练的 PQC 架构不完全匹配有时需要额外的编译步骤或适应性调整。4.2 时间加倍策略这个策略动态地构建优化路径。我们从一个很短的时间 t_init 开始用深度为 τ_init 的电路进行编译和优化得到最优参数 θ*。由于时间很短即使对于大系统目标演化 U(t_init) 也相对简单初始重叠保真度通常较高优化容易成功。然后我们将目标时间加倍t_1 2 * t_init。我们初始化一个新的、用于时间 t_1 的电路其结构是之前最优电路的两份拷贝V_1(θ) V_init(θ*) · V_init(θ*)。由于 V_init(θ*) 近似于 U(t_init)那么两个它的串联自然近似于 U(2 t_init) U(t_1)。因此这个新电路的初始保真度依然会保持在一个不错的水平。我们以此为新起点重新优化参数 θ。重复这个过程直到达到目标时间 t_final。这个方法的优势在于它利用了时间演化算子的半群性质U(ts) U(t)U(s)使得每一步的初始化都很有意义。它特别适合学习长时间演化。4.3 空间加倍策略与时间加倍类似但增长的是系统尺寸。我们从一个较小的系统规模 n_init 开始在固定时间 t 和固定电路深度 τ 下进行优化得到解 V_init(θ*)。然后我们将系统规模加倍n_1 2 * n_init。新的、更大系统的电路被初始化为两个小系统解的张量积V_1(θ) V_init(θ*) ⊗ V_init(θ*)。对于许多局域相互作用系统当边界效应不主导时这种初始化能提供一个不错的起点。然后我们针对大系统重新优化参数。这种方法适用于研究系统尺寸标度行为或者当我们需要将一个小规模系统上训练好的模型迁移到大规模系统时。性能对比与实操要点 在典型的伊辛模型编译任务中n80, t1.0不同初始化策略的效果差异显著无热启动随机初始化优化几乎立即陷入停滞测试成本 C_D_Test 停留在1附近梯度信号消失。一阶 Trotter (p1) 初始化提供的起点仍然不够好优化难以有效进行。二阶 Trotter (p2) 初始化能提供足够大的初始信号保真度成功启动优化过程。时间加倍与空间加倍两者都能有效地提供高质量的初始点使得优化得以进行。值得意的是不同的热启动策略最终可能收敛到不同的局部极小点其最终保真度可能相差近一个数量级。因此在实际操作中结合问题特性选择合适的策略甚至尝试多种策略是很有必要的。注意事项选择“时间加倍”还是“空间加倍”取决于你的核心挑战来源于时间尺度还是空间尺度。如果目标是模拟很长的演化时间时间加倍是自然选择。如果目标是将算法扩展到更多比特空间加倍更合适。有时两者可以结合使用。5. 优化算法细节全局更新与局部更新的权衡在确定了成本函数、训练数据和初始化策略后我们需要选择具体的优化算法来更新参数化量子电路中的参数。这里一个关键的设计选择是一次性更新所有参数全局更新还是依次、分层地更新参数局部更新5.1 全局更新方案这是我们最常用的方式即使用经典的梯度下降或其变种如Adam优化器。在每一次迭代中我们利用参数移位规则等方法计算成本函数关于所有可调参数 θ 的梯度 ∇_θ C(θ)然后同时更新所有参数θ ← θ - η ∇_θ C(θ)其中 η 是学习率。优点理论清晰与经典机器学习中的优化框架完全一致有大量现成的优化理论和调参经验可供借鉴。并行潜力梯度计算可以在理论上并行进行尽管在当前量子硬件上通常还是串行执行。可能找到全局最优对于非凸的优化地形同时调整所有参数有助于跳出较差的局部极小点。缺点贫瘠高原敏感全局成本函数的梯度方差可能指数小导致梯度估计噪声极大更新方向不可靠。参数空间大当参数很多时需要估计的梯度分量也多测量开销大。5.2 局部更新方案这种方法借鉴了经典张量网络优化中的密度矩阵重整化群思想。它不一次性优化所有参数而是采用“扫描”的方式固定电路中其他所有层的参数只优化第一层的参数直到收敛。然后移动到第二层只优化第二层的参数其他层固定直到收敛。如此从左到右扫描一遍所有层。再从右到左反向扫描一遍。重复上述正反扫描过程直到整个电路的成本函数收敛。优点每次子问题更简单每次只优化少数几个参数子问题的优化地形可能更简单不易陷入贫瘠高原。可与张量网络结合对于用张量网络表示的量子电路局部更新可以高效地通过求解本征值问题来实现。资源可能更省每次迭代只需要关注电路的一个局部区域所需的量子测量或经典模拟资源可能更少。缺点可能陷入次优解由于是贪婪的、逐层优化算法可能被困在一个远离全局最优的局部极小点中。特别是当电路层与层之间存在强耦合时单独优化某一层可能无法协调全局关系。收敛速度不确定需要多次扫描总迭代次数可能不少且收敛性理论不如全局梯度下降完善。5.3 方案对比与选择建议数值实验揭示了这两种方案的有效性范围对于浅层电路深度 τ ≤ 4局部更新方案与全局更新方案的表现不相上下都能找到不错的解。这是因为浅层电路的参数空间相对简单局部最优与全局最优的差距不大。对于深层电路例如 τ 8全局更新方案显著优于局部更新方案其最终达到的保真度可能比后者高出一个数量级以上。这说明在复杂的优化地形中局部更新的贪婪特性限制了其探索能力无法协调深层电路各部分之间的复杂相互作用。这个对比突显了量子动力学编译与基态寻找问题如DMRG的一个本质区别。寻找基态通常是一个局部性很强的过程局部更新非常有效。而编译一个时间演化算子需要精确匹配一个全局的、非局部的酉矩阵因此全局协调性至关重要。实操建议从全局更新开始对于大多数问题尤其是电路深度较大、参数较多时应优先尝试成熟的全局优化器如Adam并结合强大的热启动初始化。将局部更新作为补充或预处理对于超深层电路或当全局优化完全停滞时可以尝试先用局部更新进行几轮扫描得到一个相对较好的初始点然后再切换回全局优化进行微调。这相当于用局部更新做了一个“预训练”。监控优化轨迹始终绘制成本函数随迭代次数的变化曲线。如果全局优化陷入平台期可以尝试临时调整学习率、改用二阶优化方法或者引入随机扰动如噪声注入来尝试跳出停滞点。结合问题先验知识如果目标哈密顿量是局部的并且电路架构是层状的可以考虑在优化初期对每一层使用相同的参数平移对称性这能大幅减少参数数量简化优化。待优化到一定程度后再释放所有参数进行精细调整。6. 常见问题、故障排查与实战技巧在实际操作中即使理解了所有理论仍然会遇到各种各样的问题。下面我将一些典型问题、排查思路和实战技巧整理成表并附上详细说明。问题现象可能原因排查步骤与解决方案训练损失不下降始终在高位徘徊1. 陷入贫瘠高原。2. 初始化点太差。3. 学习率设置不当。1.检查梯度计算并绘制初始点处梯度的方差或范数。如果指数小确认是贫瘠高原。此时必须采用热启动初始化第4节所述而非随机初始化。2.尝试简单案例用极小的系统如2-4个比特和极短时间测试你的整个流程。如果小系统能训练成功说明代码逻辑没问题问题在于大系统的优化难度。3.调整学习率尝试一个非常小的学习率如1e-5和一个较大的学习率如0.1观察损失是否在最初几步有变化。使用学习率调度器如余弦退火。训练损失下降但测试损失泛化误差很高1. 过拟合模型只记住了训练数据。2. 训练数据分布 Q 不符合局部打乱条件。3. 训练数据量 K 太少。1.验证数据分布回顾第2、3节。检查你的训练态集合是否近似满足局部打乱性质。对于有对称性的系统确保生成数据的电路深度足够τ ≥ n。2.增加数据量根据推论A.4泛化误差的统计项以 O(1/√K) 衰减。逐步增加 K观察测试损失是否稳定下降。3.监控训练/测试曲线如果训练损失持续下降而测试损失在某个点后开始上升这是典型的过拟合。可以尝试增加数据量或对PQC施加简单的正则化如对参数范数加一个小的L2惩罚。优化过程不稳定损失值剧烈震荡1. 学习率过大。2. 梯度估计噪声太大测量次数不足。3. 成本函数本身在参数空间中有尖锐的峡谷。1.降低学习率这是最直接的方法。可以尝试将学习率减半观察震荡是否减弱。2.增加测量次数Shots在量子硬件或模拟器中梯度是通过测量期望值来估计的。增加每次参数更新时的测量次数可以降低梯度估计的方差使更新方向更稳定。3.使用自适应优化器采用像Adam这样的优化器它能自动调整每个参数的学习率对噪声和病态条件有一定鲁棒性。编译得到的电路保真度达到平台无法进一步提升1. PQC的表达能力不足深度不够。2. 找到了局部极小值而非全局最优。3. 优化器早停。1.增加电路深度尝试逐步增加 PQC 的层数 τ。表达能力随深度增加而增强但优化难度也同步增加。2.尝试不同的初始化用第4节介绍的不同热启动策略Trotter, 时间加倍空间加倍重新开始训练看是否能找到更优的解。3.引入噪声或扰动在优化后期对参数加入微小的高斯噪声或者暂时大幅提高学习率进行“冲刺”可能帮助跳出局部极小点。4.检查收敛标准确保优化进行了足够多的迭代。有时需要上万次迭代才能达到高精度。在具有对称性的系统中训练失败训练数据集合不是局部打乱的常见于浅层对称性电路。更换训练数据这是最根本的解决方法。放弃使用浅层对称性随机电路生成的数据。改为使用1. 随机乘积态无结构。2. 由深度足够远大于系统尺寸的随机电路生成的态即使该电路保持对称性。3. 如果可行直接使用Haar随机态的小规模近似如随机Clifford电路生成的态。实战技巧补充梯度计算的精度在经典模拟中使用自动微分可以获取精确的解析梯度这是理想情况。在真实量子设备上使用参数移位规则时要权衡测量次数和梯度精度。一个技巧是在优化初期可以使用较少的测量次数进行粗调当接近收敛时再增加测量次数进行精细优化。电路架构的设计PQC的架构即哪些比特之间作用什么类型的参数化门对成功至关重要。它应该与目标哈密顿量的相互作用图大致匹配。例如对于一维最近邻相互作用采用层状的、交替作用在相邻比特上的门结构如砖墙结构通常是个好起点。成本函数的替代方案如果直接测量态重叠的保真度成本太高可以考虑使用局部可观测量的集合作为代理成本函数。虽然这可能导致学习效率降低如第4节所述但在某些硬件限制下是必要的折衷。确保代理成本函数在零点与真实保真度成本函数一致。利用经典模拟进行预研在将算法部署到真实的含噪声量子设备之前务必使用经典模拟器如Qiskit, Cirq, Pennylane进行充分的算法开发和调试。可以从小的系统规模开始验证整个流程再逐步放大。