
1. 项目概述当数据不再“平直”在机器学习的日常实践中我们习惯于将数据点视为高维欧几里得空间即我们熟悉的“平直”空间如二维平面、三维空间中的向量。线性回归、主成分分析PCA乃至大多数深度神经网络其底层数学都建立在这个“平直”的假设之上两点间的距离是直线距离向量的加法、乘法运算直接有效。这个假设极大地简化了问题让算法得以高效运行。然而现实世界的数据往往并不“安分”地躺在一个平直的空间里。想象一下地球表面在局部一小块区域看起来是平的你可以用经纬度坐标一个二维欧几里得空间来近似描述一个城市的位置。但如果你想描述从北京到纽约的航线直线穿过地球内部就不再是有效的路径你必须沿着球面的大圆测地线飞行。地球表面就是一个典型的流形——一个局部像欧几里得空间但整体具有复杂弯曲结构的数学对象。这就是非欧几里得机器学习的核心战场。当数据的底层结构是弯曲的流形如方向、概率分布、对称正定矩阵空间、离散的图如社交网络、分子结构或更复杂的拓扑空间如带有洞的曲面时强行用欧几里得工具去处理就像用平面地图去规划环球航行不仅会引入误差更可能丢失数据中最重要的结构信息。本文旨在深入探讨这一前沿领域特别是两大核心任务回归与潜在嵌入。我们将系统性地拆解当输入空间、输出空间或两者同时脱离欧几里得范畴呈现出流形或拓扑结构时现有的机器学习方法如何被重新定义、泛化和创新。这不仅仅是理论上的好奇更是解决计算机视觉3D姿态、形状分析、计算生物学蛋白质结构、脑网络、推荐系统用户-物品关系图等领域实际问题的关键技术。2. 核心思路从“平直适配”到“结构尊重”处理非欧几里得数据的核心哲学是从“将数据强行映射到欧几里得空间进行处理”转向“在数据固有的几何或拓扑结构内部直接定义运算”。我们可以将主流方法分为三个策略层次其复杂度和对结构的尊重程度依次递增。2.1 策略一插件法——在欧氏空间里“模拟”这是最直观的策略。当数据点{x_i}位于一个流形M上时我们首先找到一个从流形到某个欧几里得空间R^d的嵌入映射φ: M - R^d。这个映射通常要求是等距或近似等距的即尽量保持流形上点与点之间的真实距离。一旦数据被“拉直”到R^d中所有标准的欧几里得机器学习算法如线性回归、k-均值聚类就可以直接应用。实操心得插件法的关键在于嵌入映射φ的选择。对于常见的流形如单位球面S^{n-1}我们可以直接使用其在高维空间中的坐标表示本身就是嵌入。对于更复杂的流形可能需要使用诸如多维缩放MDS或等距特征映射Isomap等流形学习算法来学习一个低维嵌入。这种方法实现简单计算效率高是快速验证想法的好工具。局限性然而插件法存在根本性缺陷。首先找到一个全局的、保距的嵌入对于复杂流形通常非常困难甚至不可能根据纳什嵌入定理虽然总是存在但维度可能极高。其次在欧氏空间中计算的结果如均值、插值点通过逆映射φ^{-1}拉回流形时可能不再具有几何意义甚至可能不在流形上。2.2 策略二切空间投影法——局部“摊平”流形的一个核心性质是每一点p都存在一个切空间T_pM这是一个与流形在该点相切的欧几里得空间。切空间投影法的思路是将所有数据点通过对数映射Log_p: M - T_pM投影到某个参考点p通常是流形的均值的切空间中。在切空间这个线性空间里我们就可以安全地使用欧几里得算法。完成计算后再通过指数映射Exp_p: T_pM - M将结果映射回流形。计算示例以S^2三维空间中的单位球面为例给定一组球面上的点{x_i}。计算流形均值使用 Fréchet 均值即最小化到所有点距离平方和的点。对于球面这可以通过在R^3中计算算术平均后投影回球面得到点p。对数映射对于球面上一点x其在p点切空间中的向量v Log_p(x)。在S^2上v的方向是x - (p·x)p的方向长度是p与x之间的球面距离夹角θ arccos(p·x)。在切空间运算现在{v_i}位于欧氏平面T_pM一个二维平面上。我们可以对其做线性回归假设有标量输入t_i目标是找到切空间中的“直线”v a * t b其中a, b是切空间中的向量。指数映射得到预测的切空间向量v_pred后通过Exp_p(v_pred)映射回球面得到最终的流形预测值。对于S^2Exp_p(v) cos(||v||) * p sin(||v||) * (v / ||v||)。注意事项切空间投影法非常优雅它将复杂的流形运算局部线性化。但其有效性严重依赖于一个假设所有数据都集中在参考点p的一个邻域内使得切空间近似是流形的一个良好局部近似。如果数据在流形上散布很广即流形的曲率影响显著那么将非线性关系强行在单个切空间中进行线性建模会产生不可忽视的偏差。这就好比试图用一张小范围的平面地图去精确表示整个大陆的地形。2.3 策略三本征方法——在流形上直接定义当插件法和切空间投影法的偏差不可接受时我们必须采用本征方法。其核心思想是抛弃欧几里得空间的捷径直接在流形M的几何结构上重新定义机器学习算法所需的所有基本操作。这包括距离使用流形本身的测地线距离而非欧氏距离。均值使用Fréchet 均值或 Karcher 均值即最小化到所有数据点距离平方和的点。插值与回归用连接两点的测地线代替直线用沿测地线的平行移动代替向量平移来定义“线性”关系。梯度下降使用黎曼梯度下降更新方向是目标函数在流形切空间中的负梯度方向然后通过指数映射更新流形上的位置。为什么必须这么做因为流形上的加法x y没有定义。在欧氏空间中线性回归模型y Ax b的核心是加法和数乘。在流形上Ax矩阵乘法和 b向量加法都失去了意义。本征方法的目标就是为流形找到几何上正确的类比物。3. 流形上的回归当输入与输出“弯曲”时回归分析旨在建立从输入变量X到输出变量Y的映射关系f: X - Y。在非欧几里得设定下X和/或Y可以是流形。根据其几何性质我们可以建立一个清晰的分类法如下图所示概念图并逐一剖析。此处为概念性描述对应原文图7分类基于输入空间X和输出空间Y的几何性质行1欧氏 - 欧氏传统回归的领域如线性回归、多项式回归、高斯过程回归等。行2一维欧氏 - 流形输入是标量如时间输出在流形上如随时间变化的旋转姿态。这是流形回归的天然起点。行3高维欧氏 - 流形输入是多维欧氏向量输出在流形上。行4流形 - 欧氏输入在流形上输出是欧氏值如从脑网络连接模式预测某个临床评分。行5流形 - 流形最一般的情况输入和输出都是流形。3.1 核心模型从线性到测地线在欧氏空间中线性回归模型为y β₀ β₁x。在流形上其对应的本征泛化是测地线回归。定义给定一组观测{(t_i, y_i)}其中t_i ∈ R一维欧氏输入y_i ∈ M流形输出测地线回归旨在找到流形M上的一条测地线γ(t)使得其尽可能好地拟合数据点。数学模型是求解min_{p∈M, v∈T_pM} Σ_i d(γ_{p,v}(t_i), y_i)²其中γ_{p,v}(t) Exp_p(t * v)p是测地线的起点对应截距β₀v是切空间中的方向向量对应斜率β₁d(·,·)是流形上的测地线距离。实操要点与挑战优化求解目标函数关于p和v通常是非凸的。需要使用黎曼优化工具如黎曼梯度下降或共轭梯度法。每次迭代都需要计算指数映射、对数映射和距离函数。计算复杂度对于像对称正定矩阵流形SPD这样的流形指数和对数映射涉及矩阵指数和对数运算计算成本较高。在实际代码中需要利用流形特定的库如geomstatspymanopt来高效实现。初始化敏感由于非凸性算法对初始值(p₀, v₀)敏感。一个常见的策略是用插件法或切空间投影法得到一个初始解再进行本征优化精调。3.2 超越测地线非线性与核方法测地线模型假设关系是“流形上的直线”这有时限制过强。因此研究者发展了更灵活的模型。多项式回归在欧氏空间多项式y β₀ β₁x β₂x² ...可以捕捉非线性。在流形上泛化面临挑战因为x²等项没有定义。一种方法是将输入t提升到高维特征空间φ(t) [1, t, t², ...]然后进行多元测地线回归即行3中的 Fréchet 回归。另一种方法是定义流形上的多项式例如通过迭代的测地线 shooting 方式。核回归与局部方法Nadaraya-Watson 核回归的流形泛化即Fréchet 核回归。对于测试点x其预测ŷ是流形上加权 Fréchet 均值ŷ argmin_{y∈M} Σ_i K_h(x - x_i) * d(y, y_i)²其中K_h是核函数如高斯核d是流形距离。这相当于在流形上做局部常数拟合。更进一步局部测地线回归在每一个测试点邻域内拟合一个局部的测地线模型从而允许关系在流形上变化。贝叶斯流形回归将不确定性引入流形回归。例如贝叶斯测地线回归将起点p和方向v视为随机变量赋予先验分布如流形上的均匀分布或正态分布然后通过马尔可夫链蒙特卡洛MCMC或变分推断来估计后验分布。这不仅能给出预测值还能给出预测的置信区域对于医疗诊断等应用至关重要。3.3 流形输入与流形到流形回归当输入也是流形时问题变得更加复杂。例如从一个人脸形状可表示为流形上的一个点预测其对应的3D表情另一个流形上的点。流形输入欧氏输出一种策略是将流形输入通过某种特征提取映射到欧氏空间例如计算其测地线距离矩阵的某些统计量或使用深度网络提取特征然后再进行标准回归。另一种更本征的方法是在输入流形上定义核函数然后使用核回归。流形到流形回归这是最一般且最具挑战性的情况。方法包括联合嵌入将输入流形M和输出流形N分别嵌入到某个高维欧氏空间然后在欧氏空间学习一个映射最后投影回去。这种方法受限于嵌入的质量。平行移动回归核心思想是利用连接输入点和某个参考点的测地线将输入切空间中的变化通过平行移动沿流形“传播”从而影响输出流形上的预测。这需要精妙的微分几何操作。基于深度学习的通用映射使用神经网络的强大表达能力来近似流形间的映射。关键在于确保网络的每一层操作都尊重流形结构或者网络的输出层包含一个到目标流形的投影层如Softmax层输出概率单纯形Proj_to_SPD层输出对称正定矩阵。经验之谈在实际项目中选择哪种回归模型首先取决于数据的几何性质。如果输出明显是流形数据如方向、SPD矩阵输入是简单的标量或欧氏向量从测地线回归开始是一个稳健的选择。如果关系复杂考虑核回归或局部方法。当输入也是流形时特征工程结合传统回归或者使用专门的流形-流形网络架构往往是更可行的路径。永远不要忽视可视化将流形数据通过PCA或t-SNE降维到2D/3D进行观察可以直观判断线性/测地线假设是否合理。4. 流形上的潜在嵌入寻找数据的本质低维结构潜在嵌入的目标是将高维数据{x_i} ⊂ X映射到低维潜在空间Y同时保留数据的关键结构。当数据空间X或潜在空间Y是流形时我们就进入了非欧几里得嵌入的领域。4.1 分类框架数据空间与潜在空间的几何组合我们可以根据数据空间X和潜在空间Y的几何类型对嵌入方法进行系统分类对应原文图8欧氏数据 - 欧氏潜在空间这是经典领域包括主成分分析PCA、自编码器AE、变分自编码器VAE、局部线性嵌入LLE等。它们学习一个欧氏空间内的线性或非线性子流形。流形数据 - 欧氏潜在空间数据本身在流形上但我们希望用低维欧氏向量来表示它们。这要求嵌入过程尊重原始流形的几何。欧氏数据 - 流形潜在空间数据是欧氏的但我们希望将其嵌入到一个具有特定几何约束的流形中如球面用于方向数据双曲空间用于树状/层次结构数据。流形数据 - 流形潜在空间数据在流形上潜在空间也是流形。这是最本征但也最复杂的情况。4.2 核心方法解析4.2.1 主测地线分析流形上的PCA对于流形数据 - 欧氏潜在空间最直接的泛化是主测地线分析Principal Geodesic Analysis, PGA。原理PCA 在欧氏空间中找到数据的主方向特征向量使得数据在这些方向上的投影方差最大。PGA 将这一思想搬到流形上计算数据的 Fréchet 均值μ。将所有数据点通过对数映射Log_μ(x_i)投影到切空间T_μM。在切空间这个欧氏空间中对投影后的向量进行标准的 PCA得到主成分方向{v_k}切空间中的向量。这些主方向{v_k}定义了流形上通过μ的测地线γ_k(t) Exp_μ(t * v_k)。数据点x_i在低维潜在空间欧氏的坐标就是其在切空间主方向上的投影系数。与切空间PCA的区别一个常见的误区是直接在切空间做PCA即步骤2和3然后声称得到了流形的主成分。这被称为切线PCA。PGA 的关键在于它明确地将切空间中的主方向解释为流形上的测地线从而提供了一个从低维欧氏坐标(t₁, t₂, ...)回流形Exp_μ(Σ t_k * v_k)的解码器。而切线PCA仅仅是一种降维技术其逆映射从坐标回数据在几何上不一定是合理的。变体与扩展概率PGA为 PGA 引入概率框架假设切空间中的数据投影服从高斯分布从而可以计算似然并进行贝叶斯推断。测地子空间PGA 生成的是通过基点的测地线一维子流形的张成空间。更一般的概念是重心子空间它由多个基点定义能够捕捉更复杂的流形结构。4.2.2 流形自编码器自编码器AE和变分自编码器VAE是深度学习中强大的嵌入工具。将其泛化到流形上主要涉及两个修改流形数据 - 欧氏潜在空间编码器E: M - R^d需要处理流形输入。这通常通过一个标准神经网络来实现该网络将流形数据以某种坐标表示如SPD矩阵的Log-Euclidean坐标映射到欧氏向量。关键在于解码器D: R^d - M。解码器的输出层必须确保其输出位于流形M上。例如对于球面S^n输出层可以是L2归一化层。对于 SPD 流形输出层可以是一个将任意矩阵映射为对称正定矩阵的操作如通过矩阵指数或构造A * A^T εI。损失函数必须使用流形上的距离如测地线距离或 Log-Euclidean 距离。欧氏数据 - 流形潜在空间这是近年来非常活跃的领域旨在学习具有特定几何意义的潜在空间。例如球面VAE潜在空间是超球面S^{d-1}。这适用于具有方向性或需要模长归一化的数据。实现时编码器输出一个均值向量μ和一个方差标量σ然后通过重参数化技巧采样得到欧氏向量z最后将其L2归一化得到球面上的点z / ||z||。双曲VAE潜在空间是双曲空间如庞加莱球模型。双曲空间具有负曲率非常适合嵌入具有层次结构的数据如树、词向量。网络需要在双曲几何下定义运算如双曲距离、双曲全连接层等。环面VAE潜在空间是环面T^n S¹ × ... × S¹适用于具有周期性结构的数据。4.2.3 无解码器方法流形学习与度量学习有些方法不显式地学习一个解码器而是直接优化潜在表示。等距特征映射Isomap 的核心思想是如果数据位于一个弯曲的流形上那么欧氏距离不能反映内在的几何距离。Isomap 首先构建一个邻域图用图上的最短路径距离近似测地线距离作为数据点之间的新距离然后对新的距离矩阵进行多维缩放MDS得到低维欧氏嵌入。这本质上是一种流形数据 - 欧氏潜在空间的嵌入且没有解码器。黎曼流形度量学习给定流形上的数据点{x_i}学习一个映射f: M - R^d使得在潜在空间中相似的点靠近不相似的点远离。损失函数通常基于三元组损失或对比损失但距离计算在流形上进行或使用流形感知的深度特征。避坑指南在实现流形嵌入时一个常见的陷阱是距离函数的误用。许多聚类或可视化算法如 t-SNE, UMAP默认使用欧氏距离。如果你的数据是流形直接输入原始坐标并使用欧氏距离会导致灾难性结果。务必使用或自定义正确的流形距离度量。例如对于旋转矩阵SO(3)应使用测地线距离或角度距离对于概率分布单纯形应使用 KL 散度或 Wasserstein 距离。5. 拓扑结构在回归与嵌入中的应用超越几何的连接性当数据的结构不仅弯曲而且本质上是离散的、基于“连接关系”时几何距离、角度可能不再是首要关注点拓扑连接性、洞、分支则成为核心。这类数据通常以图、超图、单纯复形等形式出现。5.1 拓扑回归当输入或输出是图或复杂网络拓扑回归处理的是输入X和/或输出Y为拓扑对象如图的情况。图值回归输出Y是一个图。例如根据患者的临床特征欧氏向量预测其大脑功能连接网络图。方法包括参数方法将图的邻接矩阵或拉普拉斯矩阵的生成过程参数化如基于随机图模型然后回归这些参数。非参数方法将图表示为向量如图核、图特征在欧氏空间进行回归然后再转化为图。这需要定义图与向量空间之间可逆或可生成的映射。图作为输入的回归输入X是一个带有节点特征的图输出Y是欧氏向量或标量。这是图神经网络GNN的天然战场。例如预测分子图的化学性质。图卷积网络通过聚合邻居信息来学习节点表示然后池化为图级表示进行回归。图作为正则化器当输出是定义在图节点上的信号时如每个城市的房价图结构城市间的连通性可以作为平滑性正则项加入回归模型鼓励相邻节点有相似的输出值。5.2 拓扑嵌入从点云到图从图到向量拓扑嵌入关注如何将一种拓扑表示转化为另一种或转化为欧氏向量。点云 - 图/复形这是拓扑数据分析TDA的起点。给定一堆数据点点云我们想理解其拓扑结构。Vietoris-Rips 复形给定一个距离阈值ε对于点云中每对距离小于ε的点连一条边每三个两两相连的点填充一个三角形以此类推。随着ε增大我们得到一个不断增长的复形序列其拓扑特征如连通分支数、环数、空洞数的变化被记录在持续同调条形码中。这提供了对数据拓扑的鲁棒描述。图构建通过 k-最近邻k-NN或 ε-半径法将点云转化为图。这是许多图学习算法的预处理步骤。图 - 欧氏向量即图嵌入将节点或整个图映射为低维向量。节点嵌入如 DeepWalk, Node2Vec通过在图上的随机游走来生成节点序列然后用词嵌入技术如 Skip-gram学习节点向量。这些方法保留了节点的网络邻居信息。图级嵌入将整个图表示为一个向量用于图分类或回归。方法包括图核、图神经网络GNN后的全局池化或基于子图统计的特征工程。超图与单纯复形嵌入超图边可以连接多个节点和单纯复形包含单形如点、边、三角形、四面体能表达更高阶的相互作用。嵌入这些结构需要发展相应的神经网络如超图神经网络和单纯复形神经网络它们定义了在更高阶胞腔上的信息传递规则。技术价值洞察拓扑方法的核心优势在于其对微小形变的不变性。一个咖啡杯和一个甜甜圈在几何上不同但在拓扑上都是“有一个洞的物体”。在数据中拓扑特征如是否存在环、簇往往比精确的几何坐标更稳定、更具解释性。例如在生物信息学中持续同调被用来分析蛋白质结构的稳定性或基因表达数据的聚类模式。6. 实战挑战与未来方向将非欧几里得机器学习理论付诸实践会遇到一系列独特的挑战。6.1 计算复杂性与数值稳定性流形运算指数/对数映射、平行移动、距离计算通常涉及求解微分方程或进行矩阵分解如 SPD 流形的矩阵对数计算成本远高于欧氏运算。在训练深度学习模型时这些操作需要嵌入到自动微分框架中并确保数值稳定例如在球面上计算距离时避免反余弦函数的数值误差。优化策略对于特定流形存在快速近似算法或封闭解。优先使用经过优化的专用库如geomstatsfor Python。对于大规模问题考虑使用切空间投影法作为本征方法的快速近似或者采用随机化/采样技术来估计流形操作。6.2 模型选择与评估如何为一个非欧几里得问题选择合适的模型没有放之四海而皆准的答案。诊断数据几何首先通过可视化如使用 t-SNE、UMAP 但注意它们本身是欧氏方法和定量指标如计算数据点之间的欧氏距离与测地线距离估计的差异来判断数据是否明显偏离欧氏假设。从简单开始先尝试插件法或切空间投影法作为基线。如果性能不佳且偏差分析显示几何效应显著再转向本征方法。评估指标在流形上均方误差MSE需要用流形上的距离平方和来代替。对于分类任务准确率等指标依然适用但决策边界可能需要在流形上定义。对于生成模型需要设计流形上的评估指标如 Fréchet Inception Distance 在流形上的类比。6.3 未来展望该领域仍在蓬勃发展几个关键方向值得关注统一框架开发更统一的软件框架将不同流形和拓扑空间的运算抽象出来让研究者像使用线性代数一样方便地使用非欧几里得操作。可扩展的拓扑方法当前许多拓扑方法如持续同调计算复杂度高难以扩展到超大规模图或高维点云。需要发展更高效的算法和近似技术。几何先验与深度学习融合如何将流形或拓扑结构的强先验知识更有效地注入到深度神经网络架构中而不是仅仅在损失函数或数据表示层面是一个富有前景的方向。例如设计等变网络层使其输出自动满足流形约束。动态与非静态结构现实世界的数据结构往往是随时间演化的如动态社交网络、随时间变形的主体形状。发展能够处理动态流形或时变拓扑结构的学习方法是下一个前沿。非欧几里得机器学习不是一个孤立的炫技领域而是处理真实世界复杂数据的必然延伸。当你的数据点是一组旋转、一系列概率分布、一个社交网络或一个分子结构时理解并利用其内在的几何与拓扑结构不再是可选的高级技巧而是构建精准、鲁棒且可解释模型的基础。它要求我们超越熟悉的欧氏直觉拥抱弯曲、连接和洞悉数据本质的新数学语言。这条路充满挑战但也正是其魅力与价值所在。