
1. 项目概述当组合数学遇见可解释AI在组合表示论里对称群的Kronecker系数计算是个出了名的“硬骨头”。简单说给定三个整数分拆比如把数字6拆成321这个系数描述了它们对应的不可约表示在张量积分解中的重数。从1938年Murnaghan提出问题至今近一个世纪过去了我们依然没有一个普适的组合公式来精确计算它甚至判断它是否为零都被证明是NP-hard问题。这就像面对一个结构极其复杂、规则隐晦的黑箱传统数学工具有时会显得力不从心。但最近几年事情开始起变化。数据驱动的方法尤其是机器学习开始渗透到这个纯数学的堡垒里。早期的尝试比如用卷积神经网络CNN或LightGBM已经能取得接近98%的分类准确率来预测系数是否为零。这结果好得令人惊讶甚至有点“不安”——模型预测对了但我们却不知道它为什么对。它像个成绩优异却无法解释解题步骤的学生我们无法从它的成功中学到新的数学知识。这正是“黑箱模型”的典型困境预测能力强可解释性差。于是我们的工作重点转向了“可解释机器学习”。我们不再满足于一个高准确率的预测结果更想撬开黑箱看看里面到底发生了什么能否提炼出人类可以理解的规则或模式。这就像给数学家配了一个既能做复杂计算、又能清晰汇报推理过程的AI助手。我们的核心武器是一系列可解释模型如梯度显著性分析、Kolmogorov-Arnold网络KAN、小型神经网络和符号回归而关键的“钥匙”则是一个叫做b-loading的衍生特征。我们发现仅凭这个一维特征就能构建出准确率约83%的透明决策函数。更进一步基于Transformer的架构能将准确率推至99%以上虽然其内部机制更像一个“灰箱”但极高的性能揭示了数据中可能存在更简洁、未被发现的深层规律。这项工作不仅仅是应用了一个时髦的技术。它试图在数学的严谨性与机器学习的探索性之间架起一座桥梁。通过可解释模型我们希望能将数据中浮现的模式转化为可供数学家检验和理解的猜想或洞察从而反哺理论研究本身。2. 核心思路与特征工程从分拆三元组到b-loading2.1 问题定义与数据表示我们的任务是一个二分类问题给定一个三元组t (λ, μ, ν)其中 λ, μ, ν 都是整数 n 的分拆预测对应的Kronecker系数g(λ, μ, ν)是否为零。首先面临的是如何将组合对象转化为机器学习模型能处理的数值特征。最直接的方法是将每个分拆表示为一个长度为 n 的向量。例如分拆 (4,2) 在 n6 时表示为 (4,2,0,0,0,0)。那么一个三元组就对应一个3n维的向量。这是最“原始”和完整的数据表示包含了所有信息。然而直接使用高维原始向量存在几个问题维度灾难n 增大时分拆数量 p(n) 增长极快3n维向量的空间非常稀疏。对称性Kronecker系数在 λ, μ, ν 的置换下是不变的引理2.1但我们的向量表示并没有内置这种对称性模型需要额外学习。冗余性分拆向量各分量之间并非独立它们的和恒为 n这导致了强烈的线性约束和相关性。主成分分析PCA证实了这些直觉。如图5所示对3n维输入做PCA前三个主成分的贡献率几乎相同这正对应了 λ, μ, ν 的对称性。同时特征值下降很快说明数据的内在维度远低于3n。Spearman相关矩阵也显示向量的前几个分量与后几个分量呈负相关而末尾的分量之间呈正相关这是词典序和总和约束导致的必然结果。2.2 b-loading的诞生一种数据驱动的特征提取为了获得更本质、更紧凑的特征我们引入了一个关键概念b-loading。它的构造过程本身就是一次优雅的特征工程构建差异矩阵对于给定的 n考虑所有分拆的集合 P(n)。定义差异矩阵Z_n其元素Z_λμ ||λ - μ||_1即两个分拆向量的一阶范数曼哈顿距离。这个矩阵天然地刻画了所有分拆两两之间的“差异度”。提取主特征向量根据Perron-Frobenius定理这个非负矩阵存在一个唯一的主特征值模最大及其对应的所有分量均为正的特征向量w。这个特征向量w可以理解为每个分拆在由“差异关系”定义的这个网络中的“中心性”或“重要性”评分。归一化为b-loading将特征向量w的每个分量线性归一化到 [0, 100] 区间得到每个分拆 λ 的b-loading值b_λ。公式为b_λ 100 * (w_λ - w_min) / (w_max - w_min)。这个过程的数学直觉是什么差异矩阵Z_n编码了所有分拆的全局几何关系。其主特征向量w指向了能使“差异”的加权和最大化的方向。一个分拆的 b-loading 值高意味着它与其它分拆的总体差异较大可能处于分拆空间的“边缘”反之b-loading 值低则意味着它更“典型”或更“中心”。这是一种纯粹从数据中涌现出来的、无监督的特征。2.3 从个体特征到组合特征对于一个三元组t (λ, μ, ν)我们定义其 b-loading 为三者之和b(t) b_λ b_μ b_ν。这是一个极其大胆的降维从3n维可能高达上百维直接压缩到1维。为什么求和是有效的这背后有一个重要的经验性观察。如图1和图2所示所有三元组的b(t)值大致服从伽马分布。更关键的是当我们按g(t)是否为零分别绘制b(t)的分布时会发现两个分布有部分重叠但并非完全混杂。存在一个阈值b*使得几乎所有b(t) b*的三元组其 Kronecker 系数都不为零公式2.1。这提供了一个充分条件只要三元组的 b-loading 和低于某个阈值我们就能100%确定其系数非零。例如在 n20 时这个简单规则能覆盖约31.8%的三元组。注意b*是经验确定的它是所有g(t)0的三元组中b(t)的最小值。这意味着b(t) b*是系数非零的绝对可靠判据但反之不成立即b(t) b*时系数可能为零也可能非零。因此b(t)这一维特征已经捕获了关于 Kronecker 系数非零性的相当一部分信息。我们的可解释机器学习模型主要任务就是学习基于b(t)的最佳决策边界并尝试用人类可读的公式表达出来。3. 模型可解释性探针显著性分析与KAN在直接使用 b-loading 之前我们先用更复杂的模型和可解释性技术对原始高维数据进行分析试图理解模型关注什么从而验证或启发我们的特征工程。3.1 梯度显著性分析模型关注分拆的“头尾”我们训练了一个简单的全连接神经网络两层每层16个节点ReLU激活对3n维向量进行分类。然后通过计算模型输出相对于输入特征的梯度生成显著性热力图图6。梯度绝对值越大说明该输入特征对最终决策的影响越大。热力图揭示了清晰的模式对于每个分拆向量λ, μ, ν模型最关注的是最前面几个和最后面几个分量而中间的分量显著性很低。这个发现非常直观头部前几个分量对应分拆中最大的部分。这些数字决定了分拆的“主体形状”。尾部后几个分量补零后对应分拆中值为1的部分的数量。这映了分拆的“精细结构”或“尾部长度”。中部在分拆表示中中部往往是连续的0或很小的数字信息量较低。这个发现直接指导了我们的特征工程。我们尝试仅使用每个分拆的前3个和后3个分量共18维作为输入发现分类准确率与使用完整的3n维输入相比几乎没有下降。这证实了显著性分析的结果并说明信息确实集中在分拆向量的两端。3.2 Kolmogorov-Arnold网络KAN可视化的函数学习器KAN是近期提出的一种高度可解释的网络架构。它用可学习的样条函数取代传统神经网络中固定的激活函数如ReLU使得整个网络可以看作一个可可视化的、由简单函数组合而成的复杂函数。我们尝试了两种KAN架构[3n, ℓ, 1]和[3n, ℓ, ℓ, 1]。有趣的是在[3n, ℓ, 1]架构中剪枝后通常只留下隐藏层的一个节点被有效利用。这说明网络本质上学习的是对输入向量各分量的非线性变换然后求和再经过一个非线性输出。这再次暗示数据的内在维度很低。更有趣的是当我们使用仅包含 b-loading 的一维数据训练一个极简的[1, 1]KAN本质上就是一个样条函数时得到了约83%的准确率与基于 b-loading 的决策树性能相当。可视化学习到的样条函数图7发现对于所有研究的 n6到14函数形状都非常相似一个单调的、在 b-loading 均值m附近穿过零点的函数。通过对输入进行标准化b̃ (b - m)/ss为标准差学习到的函数近似为f̃(b̃) ≈ -b̃ c其中c是一个接近0的小常数。如果我们忽略c就得到一个极其简单的决策函数F1(b) σ(-b m)其中σ是sigmoid函数。 这个函数意味着当一个三元组的 b-loading 和b(t)低于所有三元组的平均 b-loading 和m时模型更倾向于预测其系数非零。这个基于均值的简单线性判别器达到了约83%的准确率揭示了 b-loading 分布的中心趋势与系数非零性之间的深刻关联。实操心得KAN的可视化能力是其巨大优势。在科学发现任务中能够直接“看到”网络学习到的函数形式极大地降低了从复杂模型中提取知识的门槛。对于像 b-loading 这样的单变量问题KAN几乎可以替代传统的符号回归。4. 简约模型的极限小型神经网络与符号回归为了进一步追求可解释性我们尝试了参数极少的模型目标是获得一个既准确又简单的解析表达式。4.1 单变量小型神经网络我们构建了一个仅以b(t)为输入的小型神经网络一个隐藏层k个节点ReLU激活输出层为sigmoid。模型函数为F(x) σ( γ_0 Σ_{i1}^k γ_i * ReLU(α_i β_i * x) )整个模型只有3k1个参数。实验发现对于不同的 n 和 k如 k7模型总能达到约83%的测试准确率。分析学习到的参数时我们发现一个有趣的现象对于前几个节点参数α_i ≈ 0且β_i 0导致ReLU(α_i β_i * x)恒为0。这意味着这些节点是无效的实际上k4甚至更小的网络就足够了。这引导我们走向更简单的模型逻辑回归。对b(t)进行逻辑回归我们得到了形如F2(b) σ(β * b γ)的决策函数。例如当 n14 时最优函数约为F2(b) σ(-0.0855 * b 7.28)决策边界在b ≈ 85.14准确率约84%。这与KAN发现的基于均值m ≈ 72.07的边界 (F1) 不同但准确率相近。通过扫描所有可能的线性边界我们发现最佳分离点大约在b80附近能达到约85%的准确率上限。这说明仅凭b(t)这一维特征理论上的最佳线性分类器准确率就在85%左右我们的简单模型已经接近这个极限。4.2 符号回归从黑箱网络中提取公式符号回归旨在直接从数据中寻找数学表达式。我们采用了一种混合策略先训练一个性能强大的“教师”神经网络4层每层128节点tanh/GeLU激活。用这个神经网络在大量数据点上生成输入-输出对。使用PySR库在这些生成的数据上进行符号回归寻找拟合教师网络行为的简洁公式。通过这个过程我们得到了一个有趣的候选函数公式6.1F3(b) [ cos( sqrt( cos( sin( log(b^2) )^2 ) cos( log(b) ) ) ]^3使用条件F3(b) ≥ 0.5作为决策规则准确率同样达到约83%。其决策边界也在b≈80附近。虽然这个公式看起来比简单的线性或sigmoid函数复杂但它仍然是完全透明、可解析的。它可能捕捉到了b(t)与目标之间的一些非线性关系。更重要的是符号回归提供了一种自动化“打开”黑箱神经网络的方法尽管得到的公式可能需要进一步的数学理解或简化。避坑指南符号回归对超参数如运算符集合、表达式复杂度约束非常敏感。直接对原始数据做符号回归可能难以收敛。先用一个高性能神经网络做“数据蒸馏”可以提供一个更平滑、噪声更少的“目标函数”供符号回归学习这通常能提高找到有意义公式的成功率。5. 性能巅峰Transformer模型尽管可解释模型带来了洞察但我们并未放弃追求最高的预测精度。受注意力机制在捕获长程依赖和复杂关系方面巨大成功的启发我们为这个分类任务设计了一个Transformer-like的架构。5.1 模型架构设计要点我们的设计充分考虑了这个数学问题的特殊性输入表示将三元组(λ, μ, ν)的每个部分展平并交错排列成一个长度为3n的序列[λ1, μ1, ν1, λ2, μ2, ν2, ..., λn, μn, νn]。这种交错方式能让注意力机制同时看到三个分拆在同一位置上的分量便于比较。词表与嵌入词表很简单就是{0, 1, ..., n}每个分拆分量就是一个token。我们使用了可学习的嵌入层。位置编码这是关键。我们使用的位置编码不区分同一个分拆内部不同位置即第i位和第j位但区分三个不同的分拆 λ, μ, ν。我们为它们分别分配了位置标识0, 1, 2。这意味着模型知道一个token是属于λ、μ还是ν但不知道它是该分拆的第几个部分因为分拆本身是无序的我们的向量表示是填充后的有序形式这个顺序是人为的。因此我们没有使用因果掩码允许序列中任意两个token之间建立注意力。模型结构使用了12个多头注意力块每个头有8个注意力头。由于我们的输出是一个单一的二进制标签系数是否为零而不是一个序列因此在Transformer的头部我们对整个上下文窗口的输出进行池化例如平均池化然后接一个线性层映射到单个输出值最后用sigmoid激活。训练细节使用二元交叉熵损失AdamW优化器学习率3e-4梯度裁剪范数为1.0在大约12.5万个epochs上训练。5.2 结果与启示Transformer模型取得了突破性的性能表1在 n12, 13, 14 的测试集上准确率分别达到了99.42%,99.65%和99.06%显著超越了之前报道的CNN和LightGBM模型。这个结果来了几个重要的启示和疑问近乎完美的预测99%以上的准确率表明对于我们所测试的 n 的范围Kronecker系数是否为零这个问题几乎可以被一个多项式复杂度的Transformer模型完美预测。这强烈暗示尽管判定该问题是NP-hard的但其平均情况复杂度可能很低或者数据中存在非常强的、尚未被发现的规律性。注意力机制的作用Transformer的成功可能源于注意力机制能够动态地、灵活地捕捉三个分拆向量中任意分量之间的复杂交互关系。这与Kronecker系数本身的对称性和全局性相契合。可解释性的挑战虽然Transformer性能卓越但它是一个典型的“灰箱”模型比CNN更复杂可解释性更差。理解它究竟学到了什么规则是一个极具吸引力且困难的方向即“机制可解释性”。这可能是未来连接机器学习发现与数学证明的关键。工程实践思考在数学问题中应用Transformer输入表示和位置编码的设计至关重要。必须尊重问题的数学对称性如本例中分拆的无序性、三元组的置换对称性。不恰当的位置编码可能会迫使模型去学习无关的、人为引入的模式降低性能或可解释性。6. 总结、局限与未来方向回顾整个工作流我们完成了一次从黑箱预测到白箱解释再到性能突破的完整探索。核心结论特征的有效性从差异矩阵导出的b-loading是一个强大的特征仅凭其总和b(t)这一维信息就能通过简单的线性或准线性决策函数达到约83-85%的预测准确率并推导出g(t) ≠ 0的充分条件。数据的本质显著性分析和KAN表明分拆向量中的大部分信息蕴含在其头部和尾部的少数分量中。高维的原始表示存在大量冗余。可解释模型的多样性梯度显著性、KAN、小型神经网络、符号回归等工具从不同角度“照亮”了模型的决策过程它们相互印证共同指向了 b-loading 的核心作用。性能的极限Transformer模型展示了接近完美的分类能力表明即使面对NP-hard的数学问题基于数据的机器学习方法也可能在平均情况下找到极其高效的解决方案。当前方法的局限一维特征的瓶颈基于 b-loading 的模型准确率上限约为85%。这表明b(t)虽然信息量很大但并未包含决定 Kronecker 系数为零的全部信息。丢失的15%可能依赖于更复杂的、非线性的、或基于多个特征的交互。可解释性与性能的权衡最可解释的模型如基于 b-loading 的线性分类器准确率最低性能最高的模型Transformer可解释性最差。如何构建既高度准确又易于理解的模型仍然是一个核心挑战。n 的泛化我们的研究集中在相对较小的 n≤36。对于更大的 nb-loading 的分布、决策边界以及模型的泛化能力如何变化仍需进一步探索。未来可能的方向寻找更好的特征目标是找到二维或三维的特征组合在保持可解释性的同时将准确率从85%大幅提升。这需要结合更深入的组合数学洞察与自动特征发现方法。破解Transformer的“黑箱”对训练好的Transformer进行机制可解释性分析例如通过注意力头可视化、探针probe或概念concept分析试图理解它内部形成的“算法”。它可能学会了某种近似于组合规则的启发式方法。从预测到发现最终极的目标是利用机器学习发现的模式引导数学家提出并证明新的数学定理。例如能否从 b-loading 的阈值现象或Transformer的注意力模式中猜想出一个关于 Kronecker 系数非零性的、新的充分或必要条件扩展到其他难题这套方法论——结合领域特定的特征工程如b-loading、可解释性探针和强大的预测模型——是否可以应用于组合表示论乃至更广泛数学领域中的其他困难问题我个人在复现和思考这项工作的过程中一个深刻的体会是机器学习对于数学家而言最有价值的可能不是那个最终的、高准确率的预测结果而是模型在训练过程中“被迫”发现的、那些我们人类尚未意识到的数据中的规律与结构。可解释性工具就是我们窥探这些规律的显微镜。这项工作不是一个终点而是一个令人兴奋的起点它展示了人机协作解决深层数学问题的一种全新范式。