
1. 项目概述当ViT遇见恒星光谱在系外行星猎手的工具箱里径向速度法Radial Velocity Method无疑是一把历经考验的“老枪”。它的原理优雅而直接一颗看不见的行星在绕其母星公转时其引力会使恒星产生微小的周期性摆动。通过分析恒星光谱线的多普勒频移我们就能反推出这颗行星的存在甚至估算其质量。自1995年首次发现飞马座51b以来这个方法已经发现了数百颗系外行星。然而这把“老枪”正面临着一个越来越棘手的敌人恒星抖动Stellar Jitter。想象一下你试图在波涛汹涌的海面上用肉眼观测远处一艘小船产生的微小涟漪。恒星表面的黑子、耀斑、对流活动等就像海面上的风浪会产生与行星引力信号频谱重叠的“噪声”。对于像地球这样仅能引起太阳约9厘米/秒速度摆动的行星信号当前的观测精度约1米/秒和恒星抖动带来的干扰使得探测工作如同大海捞针。传统上天文学家依赖Lomb-Scargle周期图等工具在观测数据中寻找周期性信号。但面对低振幅信号和复杂的恒星活动噪声这些方法的灵敏度常常捉襟见肘导致需要耗费数年甚至更长的观测基线来确认一个候选信号极大地消耗了宝贵的望远镜时间。近年来机器学习特别是深度学习为这个经典问题带来了新的曙光。卷积神经网络CNN已在处理光谱数据上展现出潜力。而我们这次要深入探讨的是一个更具颠覆性的架构Vision Transformer。最初为图像识别而生的ViT如何被巧妙地“移植”到一维时序光谱数据分析中并实现了对低至35厘米/秒信号的检测能力这背后不仅是对工具的跨界应用更是对数据本质和问题建模方式的重新思考。本文将带你拆解这个基于ViT的径向速度行星信号检测框架从数据预处理、模型设计到训练策略完整呈现其如何成为传统周期图方法的一个强劲而稳健的替代方案。2. 核心挑战与方案设计思路2.1 恒星抖动信号提取的“终极干扰”要理解机器学习方案的价值首先得看清传统方法面临的“天花板”。恒星抖动并非白噪声它具有复杂的时空相关性。例如恒星黑子的出现、穿越和消失会在光谱中引入与恒星自转周期相关的准周期性信号。这些信号的特征如形状、强度、演化与行星开普勒轨道产生的纯粹多普勒频移截然不同但在仅观测径向速度时间序列时它们的频谱特征可能非常相似。传统的数据驱动方法如高斯过程Gaussian Process建模通过构建协方差函数来拟合这种相关性噪声。虽然有效但其性能严重依赖于先验核函数的选择且计算成本高昂。另一种思路是利用活动指标如Hα线、Ca II HK线强度与径向速度变化进行解相关。然而这些指标与径向速度抖动之间的关系并非总是线性的且不同恒星、不同活动周期的表现差异很大。问题的核心在于传统方法大多在“径向速度点”的层面进行操作即先对每张光谱进行复杂的处理提取出一个代表该时刻恒星视向速度的标量值然后再在这些点构成的时间序列上进行分析。这个过程中大量蕴含在原始光谱线轮廓、形状、不对称性中的物理信息被丢弃或平均掉了。而这些被丢弃的信息恰恰可能是区分行星信号和恒星活动噪声的关键。2.2 Vision Transformer从图像到光谱的范式迁移Vision Transformer的突破性在于其“自注意力”Self-Attention机制。与CNN的局部感受野不同自注意力机制允许模型在序列的任意两个位置之间建立直接联系无论它们相距多远。这使得ViT能够全局地理解一张图像的各个部分是如何关联的。那么如何将一维的时间序列光谱数据“喂”给一个为二维图像设计的模型呢这里的创新点在于数据表示。研究团队没有直接使用原始光谱那将是百万像素级的超长一维向量也没有直接使用径向速度点序列信息损失太大。他们设计了一个中间表示拼接交叉相关函数Concatenated Cross-Correlation Function, 1D-CCCF向量。简单来说这个过程是光谱线分组从光谱中挑选出大量如数千条有代表性的吸收线。根据其深度与形成高度和温度相关将这些谱线分成若干组例如10组。分组计算CCF对每一组谱线计算其平均的交叉相关函数CCF。CCF可以看作是该组谱线平均轮廓的另一种表示它有一个中心凹陷对应谱线中心轮廓形状包含了谱线的宽度、不对称性等信息。拼接与裁剪将10组CCF在速度轴方向通常是-12.5到12.5 km/s的窗口裁剪后首尾拼接起来形成一个长的1D向量。同时将几条对恒星活动特别敏感的谱线如Ca II HK, Hα的归一化强度值也拼接到这个向量末尾。构建“光谱图像”对于一个包含100次观测100个epoch的时间序列将每个epoch对应的1D-CCCF向量作为一行堆叠起来就形成了一个100行、1722列的二维矩阵。这个矩阵就是输入给ViT的“图像”。注意这种表示法的精妙之处在于它既大幅压缩了数据量从百万像素到千像素级又保留了光谱线的轮廓信息和活动指标。每一行一个epoch是一个静态的“光谱快照”而从上到下的行序列则构成了随时间变化的“电影”。ViT的任务就是从这部“电影”中识别出由行星轨道运动引起的、有规律的全局平移模式并将其与恒星活动引起的局部轮廓扭曲和变化区分开来。2.3 分类而非回归提升低信噪比下的稳定性另一个关键设计选择是将一个回归问题预测连续的轨道周期和半振幅转化为一个分类问题。初步实验表明在低信噪比条件下让模型直接输出连续的参数值回归会导致训练不稳定、难以收敛。因此团队将参数空间离散化轨道周期P在12到365天的范围内按对数尺度均匀划分为10个区间bin标签为0-9。半振幅K在0.05到3 m/s的范围内按线性尺度均匀划分为5个区间标签为0-4。模型的任务变为输入一个100x1722的“光谱图像”输出两个概率分布分别表示该信号属于各个周期区间和半振幅区间的可能性。这种“分桶”策略带来了多重好处训练稳定分类任务的损失函数如交叉熵通常比回归的均方误差更易于优化。提供不确定性度量模型输出的概率分布本身就可以作为预测置信度的一种衡量。例如如果模型对“周期在bin 5”的概率是90%而对其他bin的概率都很低那么这个预测就很可信如果概率分布很平缓则说明模型不确定。更符合实际需求在行星搜寻的早期阶段天文学家往往更需要知道“是否存在一个周期在100-150天、振幅约0.5 m/s左右的信号”而不是一个精确到小数点后很多位的具体数值。分类输出提供了一个粗糙但稳健的“信号地图”可以高效地筛选出需要后续跟进的候选体。3. 数据工程从原始光谱到模型可读的“图像”3.1 数据源与预处理打造干净的训练样本本项目使用的是NEID光谱仪在2020年12月至2022年6月期间取的太阳“星象”观测数据。将太阳当作一颗普通恒星来观测可以获得高质量、高时间分辨率的数据并且其物理特性我们了如指掌是验证方法的绝佳试验场。原始数据不能直接使用必须经过严格的清洗和预处理晴空筛选太阳是一个有视面的天体云层遮挡部分日面会严重扭曲光谱线。团队利用与望远镜配套的日射强度计数据通过计算每日辐照度曲线与当月“晴空模板”的滚动标准差设定阈值3 W/m²自动筛选出受云影响小的观测数据。数据质量过滤仅保留高分辨率模式的光谱并剔除信噪比低于300的曝光确保数据质量基线。连续谱归一化与日心校正去除光谱仪光栅的闪耀函数影响并对地球绕日公转和太阳系行星引力引起的多普勒效应进行校正让光谱回到“静止”的太阳参考系。抑制p模振荡太阳表面存在周期约5分钟的全局振荡p模这本身也是一种噪声。通过对连续4个样本约6分钟窗口进行局部平均可以在保留原始采样率的同时平滑掉这种高频振荡的影响。3.2 构建1D-CCCF向量信息浓缩的艺术这是整个数据流水线的核心步骤目的是将高维光谱信息浓缩为富含物理意义的低维向量。谱线选择与拟合使用ESPRESSO光谱仪提供的G2V型星类似太阳谱线掩模选取数千条清晰、未严重混合的吸收线。对每条线用高斯轮廓进行拟合评估其强度和混合程度。按深度分组将筛选后的谱线按其归一化深度分成10组。深度相似的谱线形成于光球层中相近的高度和温度其行为具有物理相关性。分组计算CCF相当于对具有相似物理起源的谱线进行“集体投票”能增强信号抑制随机噪声。生成CCF与裁剪对每一组谱线计算CCF得到一个以速度如-200到201 km/s为横轴、相关度为纵轴的轮廓。为了聚焦于行星信号可能存在的速度范围通常很小将每个CCF在中心凹陷附近对称裁剪。前7组较窄的线用100像素窗口±12.5 km/s后3组较宽深的线用140像素窗口±17.5 km/s。拼接与添加活动指标将10个裁剪后的CCF首尾拼接得到一个1120维的向量。最后将6条对恒星活动敏感的谱线见表1的归一化强度值追加到向量末尾形成最终的1722维1D-CCCF向量。这就像为每个观测时刻的光谱制作了一个独特的“指纹”。3.3 合成数据生成与数据集构建真实的系外行星观测数据是稀缺的且我们不知道“标准答案”。因此需要用“数据合成”的方法来创建带标签的训练集。构建时间序列从清洗后的数据池中随机抽取100个1D-CCCF向量代表100次观测。有两种构建方式一是保持它们原始的时间顺序和间隔模拟真实不规则采样二是将它们随机打乱并赋予一个在1-2年内随机生成的时间戳。注入开普勒信号使用radvel工具为这个“虚拟”的行星系统生成一组轨道参数周期P、半振幅K、偏心率e、近心点幅角ω参数在预设范围内随机抽取。然后根据每个观测对应的时间戳计算该时刻行星引起的多普勒速度并将这个速度对应的频移“注入”到该观测的1D-CCCF向量中。具体实现上是对CCF轮廓进行相应的平移。生成“差异图像”将100个处理后的向量堆叠成100x1722的矩阵2D-CCCF。为了突出观测间的变化并减少系统误差计算每一行与第一行的差值。这样我们得到了一个99x1722的矩阵这就是最终输入ViT的“图像”。矩阵的每一行代表一次观测相对于参考观测的变化这种变化既包含了行星信号引起的系统性平移也包含了恒星活动引起的随机扭曲。模拟观测间隙真实的巡天项目不可能每天观测。为了模拟这一点在1-2年的观测时间窗内随机插入一段持续4-6个月的“停机时间”在此期间没有数据点。通过这种方式可以生成海量的、带有精确轨道参数标签的训练样本。在本研究中生成了约84万个训练样本和50万个验证样本。3.4 精心设计的数据集划分策略为了避免模型过拟合到特定时间模式或采样规律研究团队设计了多层次的数据划分策略确保评估的严谨性划分1主训练/验证集将全部35757个1D-CCCF向量按时间不重叠的原则分为训练集26777个和验证集V16949个。在此基础上生成打乱时间戳的样本。划分2日间分离验证集V3从整个19个月的观测中专门挑出2031个向量这些向量对应的观测日期与划分1中的任何数据都不同。用这些数据生成验证集V3用于测试模型对全新时间段的泛化能力。划分3月间分离另一种划分方式是将奇数月的观测用于训练偶数月的观测用于验证集M。这进一步增加了验证集的时间跨度多样性。此外验证集本身也分为不同类别V1时间戳打乱的样本与训练集生成方式相同。V2使用划分1的验证集向量但保持其原始时间顺序仅将时间轴缩放至与训练集相同的范围。V3/M使用划分2或划分3的向量保持其原始时间顺序和绝对时间戳。这种设计使得我们能够全面评估模型在V1上看它是否学会了识别开普勒信号本身在V2和V3/M上看它能否在真实的、有时序相关性的恒星活动噪声背景下依然保持识别能力。4. 模型架构与训练策略详解4.1 Vision Transformer模型适配标准的ViT处理图像时会将图像分割成固定大小的图块如16x16像素。在我们的场景中“图像”是99x1722的矩阵。一个自然的适配方式是将每一行即一个观测epoch的1D-CCCF差分向量视为一个“图块”。模型的工作流程如下图块嵌入每个长度为1722的行向量通过一个可训练的线性投影层被映射到一个更高维的嵌入空间例如512维。这个嵌入向量代表了该次观测的抽象特征。位置编码由于Transformer本身不考虑输入序列的顺序必须显式地加入位置信息。这里添加的是可学习的位置编码与每个“图块”即每个观测epoch一一对应。即使输入数据的时间戳是打乱的模型也能通过学习知道每个数据点在序列中的“位置”。Transformer编码器嵌入向量与位置编码相加后送入由多个Transformer编码器层堆叠而成的核心模块。每个编码器层都包含一个多头自注意力机制和一个前馈神经网络。自注意力机制这是模型理解“全局上下文”的关键。对于每一个“图块”自注意力机制会计算它与序列中所有其他“图块”的关联度注意力权重。例如模型可能会学到第50次观测和第75次观测的特征变化模式与一个周期为25天的行星信号高度相关。它能够同时关注所有epoch之间的关系而不是像循环神经网络那样逐次处理。前馈网络对自注意力层的输出进行非线性变换增加模型的表达能力。分类头最后一个编码器层输出的第一个特殊标记[CLS] token的嵌入向量被认为聚合了整个序列的全局信息。这个向量被送入两个独立的分类头全连接层Softmax分别输出10维周期和5维半振幅的概率分布。4.2 两阶段训练先学本质再适应现实这是本方案训练策略中最精妙的一环直接决定了模型能否区分行星信号和恒星活动。第一阶段在打乱数据上预训练输入使用时间戳完全随机打乱的训练样本V1风格。这意味着相邻的两行“图像”可能来自相隔数月的真实观测。目标在这种设置下恒星活动引起的时序相关性被彻底破坏。模型无法通过记忆时间模式来作弊。它被迫去学习数据中唯一剩下的、与时间顺序无关的规律即由同一个开普勒轨道参数所决定的、在不同相位下CCF轮廓应有的系统性平移模式。效果模型学会了识别“开普勒信号指纹”的本质——一种在速度空间上有规律的偏移模式而不关心这种模式在时间轴上出现的顺序。这相当于让模型掌握了行星信号最核心的“静态”特征。第二阶段在有序数据上微调输入使用保持原始时间顺序的样本V2风格进行微调。目标此时数据中恢复了真实的恒星活动噪声的时序结构如与太阳自转周期27天相关的准周期变化。模型需要在已经学会识别“开普勒指纹”的基础上学习如何抵抗这种具有时间相关性的干扰。效果微调过程让模型适应真实观测场景。它学会了忽略那些虽然随时间变化但不符合开普勒轨道运动规律的、由活动引起的轮廓扭曲和漂移。实验发现如果直接从有序数据开始训练模型容易过拟合到恒星活动的周期性模式上反而降低了检测真实行星信号的能力。实操心得这种“先解耦再耦合”的训练策略在处理时序信号与噪声分离问题时非常有效。其核心思想是先在一个简化的、噪声与信号统计独立的设定下让模型抓住信号最本质的特征。然后再将它置于复杂的真实环境中进行“适应性训练”。这比一开始就在复杂环境中“摸爬滚打”更容易学到稳健的特征。4.3 损失函数与优化细节模型采用交叉熵损失函数分别计算周期分类和半振幅分类的损失并将两者加权求和通常权重各为0.5作为总损失。优化器选用带动量的随机梯度下降SGD初始学习率设为1e-3并可能配合学习率调度器。训练过程中在独立的验证集如V1上监控损失和准确率。保存验证集性能最好的模型权重用于最终的测试和推理。5. 结果分析与性能评估5.1 在打乱数据上的表现验证核心能力在时间戳打乱的验证集V1上模型的分类准确率达到了86%。这是一个非常强劲的结果它证明了模型确实成功地学会了从“光谱图像”中提取开普勒轨道信号的关键特征而不依赖于任何时间序列的先后顺序。为了更直观地展示模型的性能可以构建混淆矩阵和回收率Recovery Rate曲线。混淆矩阵可以清晰显示模型在哪些周期区间或振幅区间容易混淆。例如模型可能会将周期在bin 4例如~80天的信号误判为bin 5~110天但很少会误判为bin 1很短周期或bin 9很长周期。这说明模型学到了周期的大致尺度。回收率曲线这是评估探测能力的关键指标。对于不同半振幅K和周期P的注入信号统计模型能正确检测出即分类到正确或相邻区间的比例。结果显示即使在半振幅低至0.65 m/s时模型仍能保持较高的回收率。在信噪比极低K 0.5 m/s的区域模型的性能显著优于传统的Lomb-Scargle周期图。5.2 在有序数据上的表现对抗恒星活动噪声真正的考验在于有序数据V2, V3。这里模型需要面对具有真实时间相关性的太阳活动噪声。研究团队进行了注入-回收测试从NEID太阳数据中随机选取100个观测epoch的子集注入模拟的行星信号然后用训练好的模型和Lomb-Scargle周期图分别进行检测对比。核心结论对于低振幅系统半振幅 1 m/s本方法相比传统Lomb-Scargle周期图将行星候选体的识别率提高了约两倍。特别是在较长轨道周期的区域优势更加明显。这是因为长周期信号在有限的观测时间窗内周期数少传统周期图的分辨率有限而ViT模型通过分析全局的、与相位相关的谱线变化模式对周期不完整性有更好的鲁棒性。更令人印象深刻的是即使在真实的太阳噪声和不规则采样的条件下模型对信号的检测下限可以达到35 cm/s。这已经逼近了未来旨在探测类地行星的极端精密径向速度EPRV仪器的目标精度。5.3 与传统方法的对比优势信息利用更充分传统周期图仅在提取的径向速度点序列上操作丢失了光谱轮廓信息。ViT模型直接处理包含谱线轮廓和活动指标的CCCF“图像”利用了全部可用信息。对不规则采样不敏感周期图在不规则采样数据上的性能会下降需要复杂的窗函数校正。Transformer的自注意力机制天然地处理序列对数据点之间的时间间隔没有均匀性要求。抗相关噪声能力强通过两阶段训练模型被明确教导去区分与时间顺序无关的行星信号和与时间相关的恒星活动模式。而周期图容易将恒星旋转等周期性活动误判为行星信号。提供概率化输出模型输出的是分类概率分布这为后续的统计验证如贝叶斯模型比较提供了自然的先验或似然估计而周期图只提供一个功率值。6. 常见问题、局限性与未来展望6.1 实操中可能遇到的问题与排查数据预处理不一致导致性能下降问题自己处理的光谱数据生成的1D-CCCF向量与论文中使用的数据分布有差异导致训练好的模型直接应用时效果很差。排查首先确保使用的谱线列表、分组方式、CCF计算窗口、活动线归一化方法与原文完全一致。可以尝试在少量经过严格按论文流程处理的数据上运行模型看性能是否恢复。建议开源代码和数据处理脚本以保证可复现性。心得天文机器学习项目中数据流水线的复现往往比模型代码的复现更困难、也更重要。建立一个与训练数据生成完全一致的预处理管道是成功应用模型的前提。模型对新的恒星类型泛化能力不足问题模型在太阳数据上训练得很好但应用到另一颗活跃的M型矮星数据时检测能力骤降。排查太阳是一颗G型星其活动特性黑子周期、耀斑频率等与M型矮星差异巨大。模型可能过拟合了太阳活动特有的模式。解决思路需要进行迁移学习或领域自适应。一种策略是使用物理模拟或数据增强技术生成包含多种恒星活动类型和强度的人工数据集进行预训练然后再用目标星的少量真实数据或高质量模拟数据进行微调。在微调时可以冻结模型的前几层学习通用特征只训练最后的分类头。计算资源与训练时间问题Transformer模型参数量训练需要大量GPU内存和时间。优化建议降低“图像”尺寸可以考虑减少CCCF向量的长度如通过PCA进一步降维或减少观测epoch的数量如从100减至50但这可能会损失信息。使用更小的ViT变体如ViT-Small或ViT-Tiny。混合精度训练使用PyTorch的AMP自动混合精度模块可以大幅减少GPU内存占用并加速训练。梯度累积当GPU内存不足以容纳大的批次时可以通过多次前向传播累积梯度再一次性更新参数模拟大批次训练的效果。6.2 当前方法的局限性对多行星系统的处理当前模型被设计为检测单一行星信号。对于多行星系统开普勒信号是多个周期性信号的叠加情况更为复杂。一种扩展思路是将任务改为“是否存在信号”的二元分类然后配合周期图或其他方法进行后续分析。或者探索多标签分类让模型同时预测多个周期/振幅区间的存在概率。偏心率与轨道相位目前模型只预测周期和半振幅忽略了偏心率e和近心点幅角ω。高偏心率轨道产生的径向速度曲线并非正弦波模型可能无法准确识别。未来可以将偏心率也纳入分类参数或者开发能输出完整轨道参数的回归-分类混合模型。对极端活动星的适应性对于比太阳活跃得多的恒星其活动噪声的幅度和复杂度可能远超模型在太阳数据上学到的模式。这需要更多样化的训练数据。解释性问题Transformer模型是“黑箱”我们难以理解它究竟依据“光谱图像”中的哪些具体特征做出了判断。未来可以结合注意力权重可视化等方法尝试理解模型的决策依据这不仅能增加可信度还可能反过来帮助天体物理学家发现新的、对活动不敏感的光谱诊断指标。6.3 未来发展方向与应用前景实时候选体筛选工具该框架最大的应用前景在于成为EPRV巡天项目的实时或近实时数据处理管道的一部分。望远镜每晚获得的新光谱可以快速与历史数据一起组成时间序列输入模型进行快速扫描。模型可以给出存在潜在行星信号的置信度及大致参数区间帮助天文学家优先安排对高置信度候选体的后续跟踪观测极大优化望远镜时间分配。与其他方法的融合机器学习方法并非要完全取代传统方法而是与之互补。例如可以用ViT模型进行初筛快速从数百个目标中找出几十个最有可能的候选体。然后对这些候选体使用更耗时但更精确的贝叶斯方法如高斯过程回归结合开普勒轨道模型进行深入分析和参数精确测定。扩展到直接光谱分析当前方法依赖于CCCF这个中间表示。一个更激进的思路是探索端到端的模型直接将多历元的光谱或经过初步归一化的光谱作为输入让模型自己学习最有利于区分行星和活动的特征表示。这需要更庞大的模型和计算资源但可能是终极解决方案。构建社区基准与开源生态推动此类研究发展的关键是开源的数据集、基准测试和预训练模型。未来可以建立一个包含不同恒星类型、不同活动水平、不同信噪比注入信号的标准化数据集用于公平比较各种机器学习算法的性能。这项工作清晰地展示了当现代机器学习架构与深厚的天体物理领域知识相结合时能够为解决传统方法遭遇瓶颈的经典科学问题开辟新的道路。将Vision Transformer应用于径向速度分析不仅仅是一次成功的技术迁移更代表了一种思维模式的转变从“提取数字再分析数字”到“让算法直接从原始数据中学习物理规律”。尽管前路仍有挑战但这条道路无疑为在恒星活动的“波涛”中更敏锐地聆听那些来自遥远地球的“微小涟漪”带来了新的希望。