
1. 跨域不变表示学习从最优传输到谱嵌入在机器学习实践中我们常常遇到一个棘手问题训练数据源域和实际应用数据目标域的分布存在差异。这种分布偏移会导致模型在实际场景中表现大幅下降。传统的最优传输(Optimal Transport, OT)方法通过计算样本间的映射关系来对齐分布但存在两个关键局限一是对正则化策略和超参数敏感二是直接使用Monge映射可能导致有偏的域对齐。我们提出的SeOT方法Spectral Embedding of Optimal Transport Plans采用了一种全新的视角——将平滑后的传输计划视为连接源域和目标域的二分图邻接矩阵通过谱嵌入技术提取跨域不变的特征表示。这种方法的核心思想是最优传输计划本质上反映了跨域样本间的几何关联性而图谱理论能有效捕捉这种拓扑结构中的不变特征。关键创新点不同于传统方法在样本空间中进行直接映射我们利用传输计划构建的图结构来学习域不变表示这既保留了OT的几何对齐优势又通过谱嵌入增强了特征的判别性。在音乐流派识别(MGR)任务中当训练数据为纯净音频而测试数据包含工厂噪声时传统方法的平均准确率仅为40.13%而SeOT提升至59.03%在电缆缺陷检测(CS-RT)任务中SeOT相比基线方法取得了25%的绝对提升验证了其在工业场景中的实用价值。2. 方法原理与技术实现2.1 最优传输的图表示视角最优传输的Kantorovich形式化定义为寻找最小化传输成本的联合概率分布$$ \min_{\gamma\in\Pi(\mu_s,\mu_t)} \sum_{i,j} C_{ij} \gamma_{ij} \langle C, \gamma\rangle_F $$其中$C_{ij}|x^s_i-x^t_j|^p$是传输代价$\Pi(\mu_s,\mu_t)$是满足边际约束的耦合集合。为提升计算效率我们采用熵正则化形式$$ \min_{\gamma\in\Pi(\mu_s,\mu_t)} \langle C, \gamma\rangle_F - \epsilon H(\gamma) $$熵正则化带来一个关键性质传输质量会在语义相似的样本簇之间扩散形成局部连通性。这正是我们构建图结构的基础——将$\gamma^*$视为源域和目标域样本间的边权重。实现细节使用Sinkhorn算法求解熵正则化OT问题设置$\epsilon10^{-4}$平衡计算效率与解的质量对多源场景先计算Wasserstein重心作为中介域2.2 谱嵌入的数学机制给定邻接矩阵$A$我们构建对称归一化图拉普拉斯矩阵$$ L_{sym} I - D^{-1/2}AD^{-1/2} $$其中$D$是度矩阵。通过求解以下优化问题得到谱嵌入$$ \min_{F\in\mathbb{R}^{n\times k}} Tr(F^\top L_{sym}F) \quad s.t. \quad F^\top F I $$解$F^*$由$L_{sym}$的前$k$个最小特征值对应特征向量组成每个样本对应嵌入空间的低维坐标。关键参数选择嵌入维度$k$根据特征值谱间隙确定通常取分类类别数$N_c$归一化处理对拉普拉斯矩阵进行对称归一化保留方向信息2.3 多源域的统一处理框架对于$N_s$个源域和1个目标域的场景我们构建分块邻接矩阵$$ A^* \begin{bmatrix} 0 \gamma^_{b→s_1} \cdots \gamma^{b→s{N_s}} \gamma^_{b→t} \ (\gamma^{b→s_1})^\top 0 \cdots 0 0 \ \vdots \vdots \ddots \vdots \vdots \ (\gamma^*{b→s_{N_s}})^\top 0 \cdots 0 0 \ (\gamma^*_{b→t})^\top 0 \cdots 0 0 \end{bmatrix} $$这种设计将所有跨域连接通过Wasserstein重心路由保持图结构的稀疏性。在具体实现时使用[11]中的算法计算多源Wasserstein重心分别计算重心到各源域和目标域的OT计划构建超大邻接矩阵时采用稀疏存储格式使用Arnoldi迭代法高效计算特征分解3. 实验验证与结果分析3.1 基准测试配置我们在三个数据集上验证SeOT的有效性数据集特性对比数据集任务类型域数量类别数特征维度MSD二分类5264MGR多分类4101000CS-RT缺陷检测44512模型架构MSD/CS-RT4层MLP (d→512×4→N_c)ReLU激活MGR随机森林(1000棵树最大深度13)优化器Adam(lr1e-3, weight_decay1e-5)3.2 性能对比结果MSD数据集结果(%)方法NoiselessBuccaneer2F16平均源域基线67.9982.4388.8968.18TCA50.0190.4395.1281.49WBTreg94.3496.2794.9295.08SeOT(本文)99.2296.6195.3197.45CS-RT关键发现在CF4→Phys跨域测试中SeOT达到69.59%准确率相比传统OT方法(最高54.5%)提升显著对电缆阻抗变化表现出强鲁棒性3.3 嵌入维度选择策略通过分析拉普拉斯矩阵的谱间隙来确定最优嵌入维度计算特征值$\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$找到最大间隙$\Delta_k \lambda_{k1} - \lambda_k$选择$k \arg\max \Delta_k$通常对应类别数$N_c$图示表明最大谱间隙位置与分类精度平台区一致验证了该选择策略的有效性。4. 工程实践中的关键问题4.1 计算效率优化SeOT的计算瓶颈主要在两部分OT求解采用GPU加速的Sinkhorn迭代复杂度$O(n^2)$特征分解利用Arnoldi迭代法复杂度$O(k\cdot nnz(A))$实测性能数据样本规模OT时间(s)谱嵌入时间(s)总耗时(s)1,0000.821.352.175,00012.6428.9141.5510,00048.27134.72183.004.2 超参数调节经验熵正则化系数$\epsilon$过大导致过度平滑失去局部几何结构过小引发数值不稳定建议从$10^{-3}$开始网格搜索图构造策略对称化处理$A (\gamma \gamma^\top)/2$稀疏化保留每行前k大值提升计算效率自连接添加单位矩阵增强局部性分类器选择对小样本(如MSD)MLP表现更优对高维稀疏数据(如MGR)随机森林更稳定4.3 实际应用中的挑战在电缆缺陷检测项目中我们遇到并解决了以下问题信号对齐难题不同电缆长度的反射信号存在时移解决方案在计算OT代价时使用动态时间规整(DTW)类别不平衡无故障样本占比过高(约60%)解决方案在OT目标函数中引入类别权重跨设备差异不同采集设备的基线噪声特性不同解决方案在谱嵌入前对设备ID进行条件化处理5. 扩展应用与未来方向当前方法在以下场景展现出特殊价值工业检测设备老化导致的信号分布漂移医疗诊断不同医院采集的医学图像标准化语音识别口音和录音环境的变化适应值得探索的改进方向包括增量式谱嵌入处理流式数据层次化OT结合语义标签信息自动超参数优化基于验证集性能的元学习在音乐分类任务中我们进一步发现将SeOT嵌入特征与原始频谱特征拼接能提升3-5%的识别率这说明谱嵌入捕获了互补于原始特征的信息。一个实用的建议是当目标域完全无标签时可以先使用SeOT获得伪标签再通过自训练策略迭代优化。