机器学习在宇宙学中的应用:基于DES数据的测光红移估计与不确定性分析

发布时间:2026/5/26 3:30:32

机器学习在宇宙学中的应用:基于DES数据的测光红移估计与不确定性分析 1. 项目概述当机器学习遇见宇宙学在宇宙学研究中要精确测量宇宙的膨胀历史和物质分布一个绕不开的核心参数就是星系的红移。红移本质上是光波被拉长的现象就像一辆鸣笛的火车远离我们时声音会变低沉一样。星系发出的光在穿越膨胀的宇宙到达我们这里时波长会被“拉长”红移值越大意味着星系距离我们越远我们看到的也是它越古老的样貌。因此红移是测量宇宙三维结构、追溯宇宙演化历史的“尺子”。获取红移主要有两种方法光谱法和测光法。光谱法就像给星系做“基因测序”通过分析其光谱中的特征谱线能获得非常精确的红移堪称“金标准”。但它的代价极高需要大口径望远镜长时间的曝光对于动辄数亿、数十亿个星系的现代大型巡天项目来说逐个进行光谱观测几乎是不可能的任务。于是测光红移技术应运而生。它好比是给星系“快速拍照”通过几个不同颜色波段的滤镜拍摄星系测量其在不同波段的亮度星等然后利用这些颜色信息来估算红移。这种方法速度快、成本低能处理海量数据但精度相对较低且估算结果存在不确定性。暗能量巡天DES就是这样一个产生了海量测光数据的项目它旨在通过绘制宇宙的大尺度结构来揭示暗能量的本质。面对DES第二版数据DR2中近7亿个天体的测光数据如何高效、准确地为其中数亿个星系估算红移并将其转化为可靠的宇宙学参数成了一个巨大的计算与统计挑战。传统上天文学家使用“模板拟合法”即用一套理论上的星系光谱模板去匹配观测到的颜色但这种方法对模板的完备性依赖很强且计算量大。近年来机器学习特别是监督学习方法为我们提供了一条新路径我们不从第一性原理出发而是让算法从一批既有精确光谱红移作为“标准答案”、又有测光数据的星系样本即训练集中自己学习颜色与红移之间的复杂映射关系。学成之后这个“模型”就能为只有测光数据的海量星系预测红移。本文的核心工作正是将三种主流的机器学习方法——ANNz2人工神经网络、GPz高斯过程以及基于Keras框架的深度学习模型应用于DES DR2的测光数据上。我们使用的“教师”是VIPERS巡天提供的光谱红移样本。但这里存在一个关键问题VIPERS样本在颜色空间可以理解为星系类型的多维分布图中的覆盖是不均匀、不完整的有些区域的星系类型在训练集中根本没有出现过。如果直接应用模型在这些“空白区域”的预测将极不可靠。为此我们引入了一种基于K-d树的空间分区数据结构来量化每个DES星系在颜色空间中距离其最近VIPERS训练样本的“代表性”从而评估其红移估计的可靠性最终筛选出一个与VIPERS样本匹配良好、预测结果稳健的DES星系子样本。我们的目标是不仅比较几种方法的性能更要构建一套完整的流程产出可用于宇宙学分析的、按红移分层像洋葱一样一层层切开宇宙的星系密度分布图。2. 数据基础DES测光数据与VIPERS光谱训练集任何机器学习项目的基石都是数据。我们的项目依赖于两大核心数据集作为预测目标的暗能量巡天DES测光数据以及作为“标准答案”来源的VIPERS光谱红移数据。理解这两套数据的特性、局限以及它们之间的匹配关系是后续所有分析成功的前提。2.1 暗能量巡天DES海量测光数据的宝库DES是一个雄心勃勃的光学与近红外巡天项目其主要科学目标是通过绘制星系、探测Ia型超新星和寻找宇宙结构模式来深化我们对暗能量和宇宙加速膨胀的理解。它使用位于智利托洛洛山美洲际天文台的布兰科望远镜在g、r、i、z、Y五个波段覆盖波长约4000埃到11000埃对南天球大片区域进行深度成像。我们使用的是其公开的第二版数据DR2其中包含了近7亿个探测到的天体其中约80%是星系和恒星。对于每个天体DES提供了丰富的测光信息包括位置赤经、赤纬、在五个波段的自动测光星等MAG_AUTO_G/R/I/Z/Y及其误差、以及用于标识的唯一IDCOADD_OBJECT_ID等。这些星等值特别是它们之间的差异即颜色如 g-r, r-i是机器学习模型估算红移的核心输入特征。颜色之所以有效是因为星系的光谱能量分布SED会随着红移发生系统性的变化——高能紫外辐射会红移到光学波段某些光谱特征如“4000埃断崖”会在不同波段中被观测到这些变化在多个波段的亮度比即颜色上会留下独特的印记。2.2 VIPERS巡天有限但精确的“教师”样本VIPERSVIMOS公共河外红移巡天是在欧洲南方天文台甚大望远镜VLT上完成的一个光谱巡天。它在红移0.5到1.2的范围内以前所未有的星系采样密度系统测量了数万个星系的光谱红移其红移中值约为0.7。我们使用的是其公开的第二版数据PDR-2其中包含了超过7万个星系的高质量光谱红移以及对应的CFHTLS巡天的测光数据。VIPERS样本并非一个简单的“全天区”样本它有着严格的选择函数星等限制i波段星等亮于22.5等。颜色预选为了有意识地剔除低红移z 0.5的星系专注于中高红移宇宙VIPERS采用了 (r-i) 0.5*(u-g) 或 (r-i) 0.7 的颜色切割条件。恒星污染剔除通过结合天体的半光半径衡量天体延展性的参数和光谱能量分布拟合有效区分了星系和恒星确保了样本的纯净性。这些选择函数意味着VIPERS样本是宇宙中特定类型星系满足其颜色-星等条件的一个子集。图1中的颜色-颜色图清晰地展示了这一点代表VIPERS样本的红点其分布范围明显小于代表DES样本的蓝点。DES数据覆盖了颜色空间中更广阔的区域其中有许多区域的星系类型在VIPERS训练集中根本没有出现。这种训练集与目标集在特征空间分布上的不匹配是测光红移估计中最主要的系统误差来源之一也是我们后续必须用K-d树方法来解决的核心问题。2.3 数据交叉匹配与特征工程我们的第一步是将VIPERS星系与DES星系进行交叉匹配以获取一套既有精确光谱红移来自VIPERS又有DES五个波段测光数据g, r, i, z, Y的训练样本。匹配的准则是天球位置赤经、赤纬在1角秒以内。成功匹配后我们就得到了一个包含约4.6万个星系的训练集每个星系拥有5个DES测光星等和1个VIPERS光谱红移真值。在特征选择上我们主要尝试了两种方案直接使用星等将g, r, i, z, Y五个波段的星等值直接作为模型的5维输入特征。使用颜色组合例如使用 (g-r), (r-i), (i-z), (z-Y) 这四种颜色再外加一个参考波段的星等如i波段星等同样构成5维输入。颜色可以消除星系本身绝对亮度的影响更直接地反映光谱形状。在实际测试中我们发现使用颜色组合通常能获得更稳定、物理意义更明确的结果因为它减弱了不同星系本身光度差异带来的噪声。这也是图1采用颜色-颜色图来展示数据覆盖情况的原因。3. 机器学习方法解析ANNz2, GPz与Keras模我们选择了三种具有代表性的机器学习方法进行对比实验。它们分别基于不同的数学框架各有优劣能够从不同角度检验测光红移估计问题的解决方案。3.1 ANNz2稳健的“多面手”ANNz2是一个专门为天文光红移估计开发的、功能强大的开源软件。它并非单一算法而是一个集成工具包核心基于ROOT框架的TMVA多变量数据分析库。我们主要使用了其中的两种模型人工神经网络和提升回归树。人工神经网络ANN部分采用经典的多层感知机结构。输入层是我们的5个特征星等或颜色之后是若干隐藏层最后是输出红移值的单个神经元节点。激活函数通常使用Sigmoid或Tanh。其训练过程是通过反向传播算法最小化预测红移与光谱红移真值之间的均方误差。为了防止在有限训练集上过度拟合ANNz2内置了贝叶斯正则化等技术在误差函数中加入惩罚项控制网络权重的大小使模型更平滑、泛化能力更强。提升回归树BDT则是另一种思路。它通过构建一系列简单的决策树每棵树根据某个特征阈值对数据进行划分并以“提升”的方式将它们组合起来。每一棵新树都专注于修正前一棵树预测的残差。这种方法的优势在于对特征的非线性关系捕捉能力强且对异常值相对不敏感还能给出特征的重要性排序。ANNz2的另一个实用功能是能够为每个预测的红移生成一个概率分布函数PDF而不仅仅是一个点估计。这是通过分析训练集中在特征空间邻近的样本的红移分布来实现的。同时它使用K近邻方法为每个预测值估算误差。我们为DES DR1和DR2数据设置的参数如表2所示例如设置了100个机器学习模型进行集成以降低方差红移预测范围根据数据特性设定为0-3.5等。3.2 GPz提供不确定性估计的贝叶斯专家高斯过程回归GPR是一种非参数的贝叶斯机器学习方法。你可以把它理解为一个“无限维”的高斯分布它定义了在输入特征空间我们的颜色空间中所有可能的函数颜色到红移的映射关系上的一个概率分布。训练GPz就是根据我们的训练数据VIPERS样本找出最可能产生这些数据的那个函数分布。GPz的核心优势在于其天然地提供了预测的不确定性。在经典的GP中噪声方差被假设为常数。而GPz采用了异方差噪声模型这意味着它允许噪声方差随着输入特征即星系在颜色空间中的位置的变化而变化。这具有深刻的物理和实用意义在数据稀疏区如果某个颜色区域的VIPERS训练样本很少GPz会认识到这里“学习”得不好从而给出较大的预测误差条。在数据密集但散射大区即使某个区域训练样本很多但如果这些样本本身的红移在一个颜色上散布很广可能由于测光误差或天体物理复杂性GPz也会给出较大的不确定性。这种能力使得GPz不仅能告诉我们“红移估计值是多少”还能告诉我们“这个估计有多可靠”。这对于后续的宇宙学分析至关重要因为我们可以根据不确定性对星系进行加权或筛选。GPz的核函数我们选择了径向基函数并采用了可变协方差GPVC模式让每个基函数都有自己的协方差矩阵以增加模型的灵活性。模型通过最大化边际似然来优化参数我们设置了最多150次迭代以确保收敛。3.3 基于Keras的深度学习模型灵活的自定义方案与前两个现成的软件包不同我们使用Keras一个高级神经网络API从头搭建了一个深度学习模型。这给了我们最大的灵活性来设计网络架构、选择损失函数和优化器。我们的目标是探索是否可以通过定制化的深度网络在精度上超越或媲美成熟的专用工具。我们构建的模型可称为KeraZ结构大致如下输入层接收5维特征。隐藏层通常包含3-5个全连接层每层有128-512个神经元。我们试验了批归一化层和Dropout层随机丢弃一部分神经元连接来防止过拟合这是处理天文数据中常见噪声和复杂关系的有效手段。激活函数隐藏层使用ReLU或其变种如Leaky ReLU它们能缓解梯度消失问题加速训练。输出层单个线性激活的神经元直接输出红移值。损失函数采用平均绝对误差MAE或Huber损失。MAE对异常值不那么敏感而Huber损失是均方误差和绝对误差的结合在异常值处理上更稳健这对于红移估计中可能存在的“灾难性离群值”预测值与真值相差极大的点尤为重要。优化器使用Adam或Nadam它们能自适应地调整学习率。我们将匹配好的VIPERS-DES数据按65%训练集、10%验证集、25%测试集的比例随机分割。训练集用于更新模型权重验证集用于在训练过程中监控模型表现、调整超参数如学习率、网络层数和进行早停防止过拟合测试集则完全留到最后用于公平地评估模型的最终泛化性能。4. 核心挑战与解决方案应对训练集不完备性的K-d树方法直接应用上述机器学习模型到一个与训练集分布不匹配的数据集上会带来灾难性的后果。想象一下你教一个AI识别动物只用猫和狗的照片训练它然后让它去识别一张大象的照片它很可能会错误地将其归类为“胖狗”或“长鼻猫”并且对自己的错误毫无自知。在天文上这就是“训练集不完备性”问题VIPERS样本并未覆盖DES星系所占据的全部颜色空间。4.1 问题本质颜色空间中的“空白区域”从图1可以直观看出DES星系蓝点在颜色-颜色平面上分布的区域远大于VIPERS星系红点。那些只有蓝点、没有红点的区域就是我们的模型从未学习过的“未知领域”。如果一个DES星系落在这些区域模型只能根据它从已知区域学到的模式进行外推其预测结果将完全不可信误差可能极大。这类预测错误被称为“灾难性离群值”它们会严重污染后续的宇宙学统计分析。4.2 K-d树量化“代表性”的空间分区利器为了解决这个问题我们没有选择简单粗暴地丢弃所有落在稀疏区域的星系那会损失大量数据而是引入了一种基于K-d树的数据结构来量化每个DES星系在特征空间中的“代表程度”。K-d树k-dimensional tree是一种用于组织k维空间中点的二叉树数据结构。它的构建过程类似于不断用垂直于坐标轴的超平面来分割空间选择当前数据集中方差最大的那个维度特征进行分割。在该维度上找到中位数点作为分割点。创建一个树节点将空间划分为两部分左子树包含所有在该维度上值小于中位数的点右子树包含大于中位数的点。递归地在左右子空间上重复上述过程直到每个子空间包含的点少于预设的阈值。构建完成后整棵树的每个叶子节点就对应着颜色空间中的一个“小格子”格子内包含了特征相似的VIPERS训练样本。4.3 可靠性权重的计算与应用对于DES DR2中的每一个待预测星系我们执行以下操作定位将其5维特征颜色或星等输入到已构建好的VIPERS K-d树中快速找到它所在的叶子节点即最近邻的“小格子”。评估检查该叶子节点内VIPERS训练样本的数量和分布。样本数量如果格子内VIPERS样本很多说明这个区域训练充分预测可靠性高。样本分布计算该DES星系与格子内所有VIPERS样本的平均距离或最近邻距离。距离越近说明它与训练样本越相似可靠性越高。赋值综合样本数量和距离我们为每个DES星系计算一个可靠性权重例如介于0到1之间。权重为1表示该星系处于训练集密集覆盖的核心区域权重接近0则表示它处于边缘或空白区域。这个权重成为了我们数据产品的关键质量指标。在后续生成红移分布图n(z)和星系密度图时我们可以设置阈值只选择权重高于某个阈值例如0.7的星系进入最终的科学样本从而保证样本的纯净性和红移估计的可靠性。进行加权在统计分析中使用权重对每个星系进行加权权重低的星系贡献小权重高的星系贡献大。这种方法使我们能够最大限度地利用DES数据同时清晰地标定并控制因训练集不完备带来的系统误差。它不是一个完美的解决方案但提供了一个透明、可量化的质量控制框架远比盲目使用所有数据或武断地切割颜色空间要科学得多。5. 模型训练、比较与结果分析在准备好数据、确定了方法并建立了质量控制机制后我们进入了核心的实验阶段训练模型、在测试集上评估性能并比较三种方法的优劣。5.1 评估指标如何衡量红移估计的好坏我们使用一组天文学界公认的指标来量化模型性能偏差Bias预测红移与光谱红移之差的平均值。理想值为0正值表示系统性地高估负值表示低估。分散度Scatter / σ通常使用归一化残差 Δz (z_phot - z_spec) / (1 z_spec) 的标准差。σ68 是指将Δz排序后中间68%数据所跨越的区间宽度的一半它对离群值不敏感是更稳健的分散度估计。灾难性离群值率Outlier Rate定义为 |Δz| 0.15 的星系所占的比例。这些是严重错误的预测必须尽可能降低。红移分布n(z)的恢复比较模型预测的星系数量随红移的分布与光谱真值分布的吻合程度。这是宇宙学分析最关心的整体统计量。5.2 训练过程与超参数调优我们分别使用65%的VIPERS-DES匹配样本训练了三个模型。以Keras模型为例训练过程需要仔细调优学习率初始值设为1e-3并配合ReduceLROnPlateau回调函数当验证集损失在若干周期内不再下降时自动降低学习率有助于模型精细收敛。早停设置耐心值如20个周期如果验证集损失连续20个周期没有改善则停止训练并回滚到验证损失最小的那个模型状态这是防止过拟合的关键。批大小根据GPU内存设置为64或128。较大的批大小能使梯度估计更稳定但可能会降低泛化能力。正则化除了Dropout我们还在全连接层的权重上施加L2正则化权重衰减进一步约束模型复杂度。对于ANNz2和GPz我们则根据其文档和社区经验设置了一系列参数组合进行网格搜索最终选择在验证集上表现最好的那一组。5.3 性能比较与结果在完全独立的测试集占VIPERS匹配样本的25%上三种方法都展现出了优秀的性能。经过K-d树权重筛选后例如只保留权重0.7的星系我们得到了一个高质量的DES星系子样本。其整体红移估计精度达到了σ68 ~ 0.035这意味着对于大多数星系其归一化红移误差控制在3.5%以内。同时灾难性离群值率被压制到了约3%的水平。这个精度对于DES这样的宽视场巡天进行大尺度结构、弱引力透镜等宇宙学分析来说是足够可靠的。三种方法的对比分析如下方法核心原理优势劣势在本项目中的表现ANNz2集成方法神经网络提升树非常稳健开箱即用提供PDF和误差估计社区支持好处理天文数据经验丰富。相对“黑箱”自定义灵活性较低训练速度较慢尤其是BDT部分。表现稳定可靠σ68和离群率指标均衡是值得信赖的基准工具。GPz贝叶斯高斯过程回归提供每个预测点的个性化不确定性对训练集覆盖不均的问题有内在的敏感性数学框架优雅。计算复杂度高训练和预测速度随样本量增长而急剧上升对超参数设置敏感。在数据密集区域预测精度与ANNz2相当其提供的方差估计与K-d树权重有很好的相关性验证了我们的质量控制方法。Keras模型深度神经网络灵活性极高可以自由设计网络架构、损失函数易于集成最新研究进展如注意力机制GPU加速训练快。需要大量的调参经验和计算资源容易过拟合结果复现性对随机种子敏感。经过精心调参可以达到与ANNz2媲美甚至略优的精度σ68可达0.033但需要投入更多的开发与调试成本。实操心得对于大多数天文团队如果追求稳定、可复现且不想陷入调参的汪洋大海ANNz2是首选。如果科学目标极度依赖对每个数据点不确定性的可靠估计例如弱透镜峰值统计GPz提供的异方差误差是无价之宝。如果团队有强大的机器学习专家并且愿意为了可能的那一点精度提升或探索新架构如图神经网络处理星系列表而投入那么自定义Keras/ PyTorch模型是方向。我们的经验是在数据质量高、训练集匹配度经过K-d树筛选后三种主流方法的顶级性能差异并不大选择往往取决于项目侧重点和团队资源。5.4 生成宇宙学产品红移切片与密度图获得可靠的测光红移后我们的最终目标是为宇宙学分析生成可直接使用的数据产品。主要步骤如下红移分箱将红移范围例如0.0 z 2.0划分为多个连续的、薄薄的红移层就像把宇宙像洋葱一样一层层切开。每一层称为一个“红移切片”。星系归属根据每个星系预测的红移及其不确定性或K-d树权重将其分配到相应的红移切片中。对于不确定性大的星系可以采用概率分配的方式让其以一定权重贡献给相邻的切片。天图投影在每个红移切片内将所有星系按其天球坐标RA, Dec投影到二维平面上。生成密度图使用像素化或基于测地线的网格统计每个天区像素内的星系数量考虑权重并扣除平均密度得到物质密度涨落图。这张图展示了宇宙在特定距离红移上的大尺度结构。估计n(z)统计每个红移切片内的星系总数加权和就得到了该切片所代表的宇宙体积内的星系数量密度n(z)这是计算星系功率谱、进行重子声波振荡分析等宇宙学测量的直接输入。通过这套流程我们最终为超过5亿个DES星系生成了系列红移切片密度图及其对应的n(z)分布。这些图产品连同每个星系的测光红移值、不确定性估计以及K-d树可靠性权重构成了一个完整、透明、可直接用于限制暗能量状态方程w等宇宙学参数的数据集。6. 常见问题、挑战与实战技巧在实际操作中从原始数据到最终的科学产品会遇到一系列典型问题。以下是我们在项目中踩过的“坑”和总结出的经验。6.1 数据预理中的陷阱问题测光误差处理不当。DES提供的星等误差MAGERR_AUTO是重要的信息。直接使用有噪声的星等作为特征模型会学习噪声。解决方案一种有效做法是进行“误差增广”。在训练时每次epoch都从星等的测量值中按其误差大小添加一个随机的高斯噪声。这相当于做了数据增强能让模型对观测噪声更鲁棒。在预测时则直接使用测量值。问题特征量纲与分布差异。星等值范围如16到24等和颜色值范围如-0.5到2.0差异很大且不一定符合高斯分布。解决方案必须进行特征标准化。通常对每个特征列减去其均值、除以其标准差使其变为均值为0、方差为1的标准分布。这对于基于梯度下降的神经网络和依赖距离度量的K-d树至关重要。问题训练集与测试集泄露。在交叉匹配DES和VIPERS时如果先对所有数据做标准化用全体数据的均值和方差然后再划分训练/测试集会导致信息泄露因为测试集的数据影响了标准化参数。解决方案永远先划分数据集。计算训练集的均值和标准差然后用这些参数去标准化训练集、验证集和测试集。这是机器学习中的铁律。6.2 模型训练与评估的挑战问题红移分布极度不均匀。星系数量随红移升高而急剧下降高红移星系更暗、更难观测。这导致模型对数量多的低红移区域过拟合而对高红移区域预测能力差。解决方案分层抽样在划分训练/验证/测试集时按红移区间进行分层抽样确保每个集合中红移分布比例一致。样本加权在损失函数中为每个训练样本赋予与其红移区间内样本数成反比的权重迫使模型平等关注所有红移区间。设计红移分段的损失函数可以针对不同红移区间设置不同的损失函数权重。问题灾难性离群值的顽固性。即使整体σ68很好总有少数预测完全错误的星系。解决方案使用稳健的损失函数如Huber损失或Log-Cosh损失它们对大的误差不像均方误差那样敏感能减少离群值对整体模型参数的过度影响。后处理筛选结合K-d树权重和模型自身的不确定性估计如GPz的方差设定联合阈值进行过滤。例如只保留KdTree_weight 0.6 GPz_variance 0.1的星系。问题如何确定K-d树叶子节点的最小样本数阈值解决方案这是一个需要权衡的超参数。阈值太小格子划分过细很多格子内样本数少统计不可靠阈值太大格子太粗糙无法精细区分特征空间的差异。我们的做法是在验证集上观察预测误差如|Δz|与叶子节点内样本数的关系曲线。通常误差会随着样本数增加而下降并趋于平稳。选择误差开始稳定时的样本数作为阈值。一个经验性的起点是总训练样本数的0.1%到0.5%。6.3 结果分析与科学验证问题如何判断我的红移估计在科学上是可靠的解决方案除了标准的统计指标必须进行科学验证。交叉匹配外部光谱样本寻找DES天区内其他独立的光谱巡天数据如SDSS的eBOSS、DESI的早期数据用这些从未参与训练的光谱红移来检验你的测光红移。这是最直接的检验。角相关函数测试计算不同红移切片内星系的二维角相关函数。如果红移估计准确那么低红移切片和高红移切片之间的星系关联应该很弱因为它们空间上距离很远。如果发现非物理的强关联则说明红移估计存在系统性的混合或误差。与模板拟合结果对比将你的机器学习结果与DES合作组内部使用的模板拟合方法如BPZ的结果进行对比。系统性偏差出现在同一区域可能指向数据本身的问题如测光校准若偏差模式不同则可能反映了方法本身的局限。问题生成的密度图有明显的边界条纹或空洞。解决方案这通常是掩模问题。真实的观测数据受限于观测条件、恒星遮挡、仪器故障等天球上有些区域是没有有效数据的。DES数据本身附带完备的掩模文件。在生成密度图前必须将掩模应用到星系列表上剔除处于掩模区域的星系。同时在计算平均密度时分母必须是当前红移切片内有效天区面积而不是总面积。忽略掩模是初学者最常见的错误之一会导致密度估计严重失真。6.4 性能与可扩展性优化问题处理数亿星系内存和计算时间爆炸。解决方案分块处理将DES全天区分成许多小块例如按HEALPix像素逐块进行红移预测和密度图生成最后再合并。这适用于所有三种方法。对于GPz由于其O(N^3)的计算复杂度直接处理数十万训练样本已很吃力。可以考虑使用稀疏高斯过程或随机特征扩展等近似方法将复杂度降低到O(N*M^2)其中M是选取的诱导点数量M N。对于Keras模型一旦模型训练完成预测阶段可以高度并行化。利用TensorFlow的图模式和多GPU预测可以极快地处理海量数据。数据格式使用Parquet或HDF5等列式存储格式配合Dask或Apache Spark进行分布式读取和处理可以高效处理远超内存大小的数据集。这个项目从数据准备到最终成图是一条完整的科学数据分析流水线。它告诉我们在现代天文学中机器学习不仅仅是训练一个模型更是一套涵盖数据工程、统计评估、系统误差控制和科学验证的完整方法论。最终产出的不仅仅是红移数值而是一整套带有质量标签、可用于前沿宇宙学探索的可靠数据产品。

相关新闻