
1. 项目概述当气候建模遇见机器学习如果你像我一样在气候模拟这个领域摸爬滚打超过十年就会深刻体会到一种“甜蜜的负担”我们构建的地球系统模型ESM越来越精细物理过程越来越复杂但随之而来的计算成本也呈指数级增长。跑一个高分辨率、包含完整生物地球化学循环的百年尺度模拟动辄需要消耗数百万CPU小时这不仅是资源的挑战更是科学探索速度的瓶颈。与此同时海量的卫星遥感、现场观测和再分析数据不断涌入如何让模型“消化”这些信息校准自身、减少偏差又是一个永恒的难题。近年来机器学习ML的浪潮席卷了各个领域气候科学也不例外。但最初很多同行包括我自己是抱有疑虑的这些从图像识别、自然语言处理中诞生的“黑箱”模型真的能理解并模拟地球系统这种受严格物理定律支配的、充满多尺度非线性相互作用的复杂巨系统吗把预测地球未来的重任交给一个数据拟合模型听起来有些冒险。然而随着研究的深入我意识到将机器学习视为传统物理建模的“替代者”是一个误区。它真正的价值在于成为一个强大的“赋能者”和“融合剂”。机器学习的核心能力——从高维数据中学习复杂的非线性映射关系、进行高效的函数逼近和模式识别——恰恰能弥补传统方法的短板。关键在于我们不能让机器学习“裸奔”进入气候科学领域而必须为其设计一套科学引导的工作流将物理定律的硬约束、观测数据的信息以及算法的灵活性有机地结合起来。这就是“物理数据AI”融合的科学工作流设计。它不是一个固定的配方而是一套方法论旨在系统性地将机器学习嵌入气候建模的各个环节从加速昂贵的物理参数化、同化异构观测数据到直接从数据中发现可解释的方程。其目标很明确在保证科学严谨性和物理一致性的前提下大幅提升模型的效率、精度和可扩展性并开拓新的科学发现路径。接下来我将结合多个前沿案例拆解这套工作流的设计哲学、核心模块与实操要点分享我们在探索中踩过的坑和收获的经验。2. 核心理念物理、数据与AI的“三重奏”在深入技术细节之前我们必须建立起一个正确的认知框架机器学习在气候建模中不是单打独斗的。一个稳健且有效的应用必然是物理Physics、数据Data和人工智能AI三者精心协作的结果。这三者构成了一个稳固的三角关系任何一方的缺失或弱化都会导致结果的不可靠或不可解释。2.1 物理的核心地位不止于约束更是引导物理定律是我们理解气候系统的基石。在机器学习工作流中物理扮演着多重角色先验知识注入Inductive Bias这是避免模型学习到虚假相关性的关键。例如在设计神经网络架构时我们可以使其 inherently 满足某些守恒律如质量、能量守恒或具备特定的对称性如旋转不变性。在训练损失函数中除了数据拟合误差我们额外添加物理方程残差项Physics-Informed Loss强制模型解满足控制方程。这相当于给模型的探索空间加上了“轨道”让它沿着物理上合理的路径寻找最优解。可解释性的锚点一个纯粹的“黑箱”模型即使预测再准也很难让领域科学家信任。物理知识可以帮助我们解释模型的输出。例如在利用机器学习进行参数化时我们可以分析模型学到的特征重要性看它是否“关注”了那些物理上已知的关键变量如温度梯度、湿度。在方程发现任务中物理量纲一致性是筛选候选方程的重要准则。数据生成的引擎高保真的物理模型如云解析模型CRM是生成高质量训练数据的“金标准”。这些模拟数据虽然计算昂贵但能提供物理一致、覆盖各种极端情景的“完美”输入-输出对用于训练机器学习代理模型Surrogate Model。实操心得不要试图用机器学习去学习整个气候系统。这既不现实也不科学。我们的策略应该是“分而治之”用机器学习去替代或优化那些计算成本极高或物理理解尚不完善的特定组件如湍流闭合、云微物理过程。把物理框架搭好让机器学习在框架内发挥其函数逼近的优势。2.2 数据的双重角色约束与信息源数据是连接物理理论和机器学习模型的桥梁它主要来自两个方面观测数据包括卫星遥感、地面台站、浮标、探空等。它们提供了真实的“地面实况”是验证和校准模型的最终标准。但观测数据往往存在空间不连续、时间不完整、带有测量误差等问题。模拟数据来自高分辨率、高精度的物理模型如大涡模拟LES、云解析模型CRM。这类数据物理一致性好、时空连续、且可以生成在现实中难以观测的变量如云内垂直速度。它们是训练机器学习代理模型的理想数据源。在构建工作流时必须对数据特性有清醒的认识代表性训练数据是否覆盖了目标应用的所有气候态和极端情况例如用温带数据训练的模型在热带很可能失效。尺度匹配观测数据、高分辨率模拟数据和目标低分辨率模型的数据在时空尺度上是否一致不匹配的尺度会引入“代表性误差”这是机器学习参数化中的一个主要误差来源。不确定性量化任何数据都带有不确定性。在利用数据进行训练或同化时必须显式地考虑并传播这种不确定性否则会给出过度自信甚至错误的预测。2.3 机器学习的赋能方式从“加速器”到“发现工具”基于上述物理和数据的背景机器学习可以以三种主要范式融入气候建模我将其概括为三个“方向”方向一物理优先ML增强的模拟Physics-First, ML-Augmented这是目前最成熟、接受度最高的路径。核心思想是保留物理模型的主体框架用机器学习来替代其中计算最昂贵或最不确定的子模块。典型应用代理建模Surrogate Modeling用神经网络算子如FNO, SFNO学习高分辨率动力核心的输入-输出映射替代原数值求解器实现百倍甚至千倍的加速。智能参数化ML Parameterization用深度学习模型如全连接网络、卷积网络替代传统的经验性参数化方案如对流、云方案直接从高分辨率模拟数据中学习次网格过程的净效应。方程发现Equation Discovery利用稀疏回归等符号回归方法从数据中自动发现描述次网格过程的简洁、可解释的数学表达式。优势物理框架保证了系统的长期稳定性和外推能力机器学习则提供了效率和灵活性。挑战如何保证代理模型在线耦合时的数值稳定性如何防止误差累积和漂移方向二数据优先观测融合的推断Data-First, Observation-Integrated这类工作流从观测数据出发利用机器学习进行信息提取、融合和不确定性量化。典型应用仿真推理Simulation-Based Inference, SBI构建一个包含观测过程如卫星辐射传输和机器学模块的仿真器通过大量前向模拟来反演地球物理参数如气溶胶光学厚度并量化其不确定性。概率性数据同化与参数推断利用归一化流Normalizing Flows等生成模型学习模型参数与气候态长期分布之间的映射从而从观测分布中直接推断最可能的物理参数值。优势能更充分地利用日益增长的观测数据提供严谨的不确定性估计直接回答“基于现有观测某个参数的可能范围是多少”这类科学问题。挑战观测数据的稀疏性、误差结构复杂且地球系统是非平稳的模型需要良好的泛化能力。方向三ML优先的气候建模ML-First这类方法旨在构建端到端的机器学习模型直接学习从初始状态或边界条件到未来气候状态的映射对显式物理方程的依赖最小。典型应用次季节至季节S2S预报使用FourCastNet、GraphCast、Pangu-Weather等基础模型直接基于再分析数据如ERA5进行全球天气和气候预测。时空数据升尺度/插值利用物理信息迁移学习融合稀疏观测和模式模拟数据生成高分辨率、物理一致的全场数据如海表pCO2。优势预测速度极快适合需要大量集合预报或快速情景分析的应用。挑战可解释性差长期预测的稳定性存疑对训练数据量和质量依赖极高物理守恒性难以严格保证。在实际项目中这三个方向并非泾渭分明一个复杂的工作流可能同时包含多个方向的元素。理解这些范式有助于我们在项目伊始就明确主攻方向和技术选型。3. 科学引导的机器学习工作流设计框架有了核心理念我们需要一个可操作的工作流框架来落地。一个完整的、科学引导的ML气候建模工作流可以系统地划分为三个阶段设计Design、开发Development、部署与评估Deployment Evaluation。这三个阶段并非线性而是一个需要多次迭代的循环。3.1 阶段一设计——将科学问题转化为机器学习任务这是决定项目成败的最关键阶段。目标是将一个模糊的科学目标如“改进热带降水预报”转化为一个定义清晰、可计算、且科学上有意义的机器学习问题。3.1.1 科学问题翻译首先必须进行精确的问题定义输入X和输出Y是什么它们必须是可观测或可模拟的物理量。例如输入可能是粗网格上的温度、湿度、风场输出可能是这些变量因次网格过程如对流产生的倾向项。学习的目标是什么是点对点的精确预测还是分布匹配是短期精度还是长期统计特性如能谱、概率分布的保真度物理约束有哪些输出是否需要满足守恒律系统是否具有对称性如平移不变性、旋转不变性案例剖析ClimSim数据集的设计ClimSim项目旨在为机器学习参数化提供训练数据。其设计极具启发性数据来源它并非直接观测而是来自“超级参数化”模拟——在每个全球气候模型网格点中嵌入一个云解析模型CRM。这样输入是粗网格的大尺度状态输出是CRM计算出的次网格物理过程的净效应。清晰隔离输入和输出被精心设计确保机器学习模型的学习目标明确——即学习从大尺度状态到次网格倾向的映射函数f: X - Y。这种隔离避免了模型去学习那些本应由主机模型动力核心负责的物理过程。部署友好数据格式与宿主模型E3SM的接口对齐极大简化了后续将训练好的ML模型“插入”到Fortran编写的传统气候模型中的过程这是工程实现上的关键考量。注意事项很多失败的尝试源于问题定义不清。比如试图让一个模型同时学习动力传输和物理参数化这会导致学习任务过于复杂且难以诊断错误来源。务必坚持“单一职责原则”让每个机器学习组件只解决一个明确的问题。3.1.2 模型空间选择架构与归纳偏置根据问题特性选择模型架构本质上是为模型注入正确的“归纳偏置”。神经算子Neural Operators如FNO傅里叶神经算子、SFNO球面傅里叶神经算子。它们学习的是函数空间之间的映射而非固定网格上的点值。这使其天然适合求解偏微分方程PDE并且具备一定的分辨率外推能力。如果你的目标是替代一个物理求解器如大气动力核心这是首选。卷积网络CNNs与U-Net擅长处理具有局部相关性和平移不变性的空间数据如卫星图像、场数据。适用于空间插值、降尺度、场预测等任务。图神经网络GNNs适用于非结构网格数据如海洋模型的三角形网格、河流网络。它能处理不规则的空间关系。物理信息神经网络PINNs与方程发现当你对控制方程的形式有部分了解如知道是偏微分方程但具体项未知或希望得到可解释的符号表达式时这类方法是合适的选择。3.1.3 目标函数设计超越均方误差损失函数是引导模型学习的“指挥棒”。在科学计算中仅仅最小化预测值与真实值的均方误差MSE是远远不够的。物理约束损失添加惩罚项强制模型输出满足已知的物理定律如守恒方程残差、能量谱约束等。多目标损失同时优化短期精度和长期统计特性。例如可以组合MSE短期、频谱差异损失中期和分布差异损失长期如Wasserstein距离。不确定性感知损失对于概率性预测任务使用负对数似然损失让模型同时输出预测值及其不确定性。3.2 阶段二开发——训练、验证与迭代这个阶段更接近标准的机器学习流程但需要格外关注科学验证。3.2.1 数据准备与基准测试Ross等人2023关于准地转通道模型中ML参数化的基准测试研究揭示了一个常被忽视的关键点数据预处理方式对最终性能有决定性影响。 他们系统比较了三种不同的粗粒化滤波算子A和五种次网格强迫定义S的组合。结果发现不同的A, S组合会导致训练出的ML参数化在线耦合时在能量谱、去相关时间等关键物理指标上表现差异巨大。有些组合离线误差很小但在线模拟会迅速发散有些则相反。数据预处理选择对ML模型的影响科学考量粗粒化滤波算子 (A)决定了输入特征的空间平滑程度。过于平滑会丢失关键的小尺度信息过于粗糙会引入噪声。需要匹配目标低分辨率模型的数值格式和物理意义。次网格强迫定义 (S)定义了模型要学习的“真实”目标。不同的定义如倾向项、通量项在物理上不等价。必须与宿主模型的离散化方案和物理过程表述方式兼容。输入特征工程除了原始变量是否加入其梯度、涡度、散度等物理组合特征这相当于注入领域知识。能显著降低模型学习难度提升可解释性和泛化能力。实操心得在项目早期不要只固定一种数据预处理方案。应该像Ross的研究一样设计一个小的基准测试Benchmark用简单的模型如浅层全连接网络快速验证不同预处理方案对在线性能的影响。这比盲目追求复杂的模型架构要有效得多。3.2.2 离线验证与诊断离线验证是在独立数据集上评估模型预测精度的标准步骤。但除了看MSE、相关系数等统计指标必须引入领域特定的诊断工具能谱分析比较预测场和真实场的功率谱看模型是否正确地模拟了能量在不同尺度间的传递如逆级串。概率分布函数PDF检查关键变量如降水率、温度异常的分布是否匹配特别是极端事件的频率和强度。物理量守恒检查计算全球或区域的平均质量、能量、水汽是否在误差允许范围内守恒。这些诊断能提前暴露出模型在物理一致性上的潜在问题避免将一个有缺陷的模型推进到昂贵的在线测试阶段。3.3 阶段三部署、在线评估与闭环反馈这是机器学习气候建模最具挑战性的一环也是区分“玩具模型”和“实用工具”的关键。3.3.1 在线集成与稳定性测试离线表现好绝不等于在线耦合也能成功。将训练好的ML模型通常是Python/PyTorch/TensorFlow集成到Fortran/C编写的大型地球系统模型中是一个复杂的系统工程挑战。技术集成ClimSim-Online项目提供了范本。它使用容器化Docker技术和PyTorch-Fortran接口如FTorch创建了一个可重复的测试环境。这使得研究人员可以像调用一个传统物理参数化子程序一样调用训练好的神经网络进行长期气候积分。稳定性测试在线测试的核心是看耦合系统能否稳定运行数十年甚至数百年。需要监测气候漂移全球平均温度、海冰面积等关键气候指标是否出现非物理的长期趋势数值爆炸变量是否会溢出或产生NaN这通常源于ML模型输出与动力核心的数值格式不兼容或产生了非物理的极端值。物理一致性在线模拟产生的天气尺度波动、季节循环、年际变率如ENSO是否合理3.3.2 评估指标从“像不像”到“好不好用”在线评估需要一套比离线更综合的指标。Ross等人提出了一个很有启发性的“相似性评分”框架相似性(参数化模型, 高分辨率参考; 距离度量) 1 - [距离(参数化模型, 高分辨率参考) / 距离(低分辨率基线, 高分辨率参考)]这个分数的含义是ML参数化模型相比不做任何参数化的低分辨率基线向高分辨率参考靠近了多少。分数越接近1说明改进越大为0说明没改进为负则说明反而更差了。可以计算多种距离度量如能谱距离、分布距离、去相关时间距离的相似性评分然后综合评估。3.3.3 形成闭环用在线洞察反哺设计在线评估的结果必须反馈到工作流的起点。例如如果模型在线出现气候漂移可能需要回到设计阶段在损失函数中增加对长期统计量的约束。如果模型在某些特定区域如热带辐合带表现不佳可能需要检查训练数据是否在该区域有足够的代表性或考虑引入区域自适应的模型结构。如果集成时出现数值不稳定可能需要检查ML模型输出的范围并添加数值限幅clipping或后处理。这个“设计-开发-部署-评估-再设计”的闭环是科学机器学习工作流迭代优化、最终走向可靠的必经之路。4. 核心场景深度解析与避坑指南下面我将结合几个典型案例深入剖析不同范式下的工作流构建细节和常见陷阱。4.1 场景一用神经算子构建物理代理模型方向一目标用FNO/SFNO等神经算子替代计算昂贵的大气或海洋动力核心实现快速、高保真的模拟。工作流拆解数据生成运行高分辨率物理模型如求解Navier-Stokes方程收集大量时空场序列{u(x, t)}。这是最耗资源的步骤。问题格式化将学习任务定义为算子学习G: u(t) - u(tΔt)即学习一个时间步的演化算子。模型选择FNO适用于直角坐标、周期性边界的问题如理想流体实验。它利用快速傅里叶变换FFT在谱空间进行卷积能高效捕获全局相互作用。SFNO专为球面设计如全球大气、海洋。使用球谐变换内置旋转不变性是处理全球气候场的正确选择。PINO物理信息神经算子在数据损失之外额外添加PDE残差损失。即使训练数据有限或带有噪声也能通过物理约束得到更合理的解。训练技巧归一化对输入输出场进行全局归一化至关重要可以加速训练并提升稳定性。多步预测损失不仅预测下一步也惩罚多步 rollout 的累积误差能显著提升长期稳定性。谱权重损失在损失函数中给不同波数尺度的误差赋予不同权重可以强制模型更关注大尺度气候意义更重要的准确性。避坑指南坑1分辨率外推的幻觉。神经算子号称具备“分辨率不变性”但这是在训练和测试数据分辨率相近的前提下。如果你用T42分辨率的数据训练想直接应用到T799分辨率上几乎肯定会失败。解决方案要么在训练时使用多分辨率数据要么设计专门的超分辨率模块。坑2长期积分发散。即使单步误差很小误差在数百上千个时间步后仍可能指数增长。必须进行严格的长期1年在线稳定性测试。一个实用技巧是在训练中引入“噪声注入”或“对抗性样本”增强模型的鲁棒性。坑3物理量不守恒。这是代理模型的大忌。除了在损失函数中添加守恒约束一个更硬核的方法是在网络架构中内置守恒层。例如确保网络输出的散度场均值为零质量守恒或能量通量满足特定关系。4.2 场景二仿真推理用于遥感不确定性量化方向二目标量化卫星反演产品如地表温度、气溶胶浓度的不确定性而不仅仅是提供一个点估计。工作流拆解以EMIT任务为例构建仿真器建立一个从“真实地表状态”到“卫星观测光谱”的完整前向模型链条。这个链条包括真实状态X、真实前向物理函数F、仪器噪声E最终得到观测Y。关键点我们不知道真实的F和X的分布。引入机器学习模块模块I状态生成用一个非平稳高斯过程GP模型从一次真实反演结果X_hat中学习其空间协方差结构然后生成大量物理上合理的“可能真实状态”X*_m的集合。模块II前向函数模拟由于不知道真实F我们用检索算法假设的F_hat来生成光谱Y*_m。为了模拟F与F_hat之间的差异我们从其他仿真中引入一个“模型差异”场D*_m通过元素级除法调整Y*_m得到更接近真实观测过程的Y†_m。模块III联合分布学习将{X*_m, X†_m}配对用高斯混合模型等无监督方法学习真实状态与反演估计的联合概率分布P(X, X_hat)。不确定性量化对于任何一个实际观测反演得到的X_hat_obs我们可以从学习到的联合分布中得到真实状态X的条件分布P(X | X_hat X_hat_obs)。这个条件分布的方差就是该像素点反演值的不确定性。避坑指南坑1忽略模型结构误差。如果仿真器只用F_hat就等于假设我们的物理前向型是完美的这会严重低估不确定性。必须引入“模型差异”项来表征物理模型的不完美这是获得校准良好的不确定性估计的关键。坑2计算可扩展性。对每个生成的Y†_m都要运行一次完整的物理反演算法R如果M很大如1000计算成本无法承受。解决方案训练一个快速的“反演仿真器”神经网络来近似R虽然会引入额外近似误差但可以权衡精度与效率。坑3空间相关性的误处理。遥感数据具有强烈的空间自相关性。如果用独立同分布假设来处理每个像素会严重扭曲不确定性估计。必须使用能够刻画空间相关性的模型如非平稳GP、条件随机场。4.3 场景三基于分布的概率性参数推断方向二目标不满足于仅用数据同化来调整模型状态而是想直接利用观测的长期统计分布来推断模型中最不确定的物理参数。工作流拆解以Lorenz ‘96系统为例训练数据生成运行物理模型如L96数百次每次使用不同的关键参数如强迫项F。对于每个F值运行足够长时间以到达统计平衡态然后收集系统状态变量的长期分布如温度的概率密度函数PDF。这样就得到了成对的(F, p_X)数据。模型选择与训练使用条件归一化流cNF作为“分布仿真器”。cNF是一种可逆的生成模型它学习从简单分布如高斯分布到复杂数据分布的变换并且这个变换可以以参数F为条件。训练完成后给定一个FcNF可以快速生成符合对应长期分布p_X(X|F)的样本。逆向推断现在我们有一个观测到的状态分布p_X_obs例如从历史数据中估计出的温度PDF。我们将训练好的cNF“倒过来用”在参数F的空间中进行搜索找到那个能使cNF生成的分布p_X(X|F)与观测分布p_X_obs最相似的F值。相似性可以用最大平均差异MMD等分布距离度量来衡量。不确定性量化通过对观测分布进行自助法Bootstrap重采样得到多个略有不同的p_X_obs_i对每个都进行上述推断得到一组F的估计值{F*_i}。这组值的分布就给出了参数F的后验不确定性区间。避坑指南坑1分布的代表性。观测到的长期分布可能只反映了当前气候态。如果模型参数F在不同气候态下会变化那么基于单一分布推断出的F可能不具有普适性。需要检查推断结果对数据时段是否敏感。坑2模型的“模仿”而非“理解”。cNF只是一个复杂的函数拟合器。它可能学会完美地模仿某个分布但其内部机制与真实物理过程无关。因此推断出的F值必须在物理上有意义如在合理范围内并且需要用其他独立观测进行验证。坑3维度灾难。对于高维状态空间如全球气候模型学习整个状态的联合分布极其困难。通常需要先通过主成分分析PCA等降维在低维特征空间中进行分布学习和匹配。5. 工程实现、挑战与未来展望将上述科学工作流落地离不开扎实的工程实践并面临一系列持续挑战。5.1 软件工程与可复现性气候建模软件栈本就复杂Fortran, C, Python, MPI等引入机器学习后技术栈更加异构。确保可复现性至关重要容器化使用Docker或Singularity封装完整的软件环境操作系统、编译器、库依赖、模型代码、训练脚本。ClimSim-Online是优秀范例。版本控制不仅代码要Git管理训练数据、模型权重、超参数配置、甚至随机种子都必须有唯一标识和存储方案。工作流管理使用Nextflow、Snakemake或Prefect等工具将数据预处理、训练、验证、部署的流水线自动化、文档化。模型卡片为每个训练好的ML模型创建“模型卡片”记录其训练数据、架构、超参数、性能指标、已知局限和使用场景。这大大提升了模型的透明度和可信度。5.2 开放挑战与前沿方向尽管进展迅速该领域仍存在诸多开放性问题可解释性与信任如何让领域专家理解并信任一个百万参数的黑箱网络做出的预测可视化、敏感性分析、归因方法如积分梯度是必要工具但还不够。我们需要发展更系统的“模型诊断学”能将ML模型的失败模式与物理机制联系起来。外推与泛化气候系统正在经历人类世前所未有的变化。用历史数据训练的模型能否可靠预测远超训练分布的未来情景如极高CO2浓度这需要发展外推鲁棒性更强的模型或许需要结合因果推理和物理约束。不确定性链条的传播从初始条件不确定性、参数不确定性、到模型结构不确定性再到机器学习自身的不确定性近似误差、训练随机性如何量化并传播这一整条不确定性链条最终给出可靠的、带有置信区间的气候预测这是一个亟待解决的统计-计算难题。与科学发现的闭环机器学习不应止步于“预测得更好”。更高的目标是促进新科学发现。例如通过方程发现找到的新参数化形式能否启发理论物理学家提出新的闭合理论通过可解释AI分析ML模型学到的特征能否揭示未被充分认识的气候过程相互作用构建“发现-假设-验证”的闭环是AI for Science的终极愿景之一。5.3 给从业者的建议最后结合我个人经验给想要进入或正在这个交叉领域工作的朋友几点建议深耕领域知识不懂气候物理的机器学习专家在这里走不远。必须花时间理解你要建模的系统的基本动力学、关键过程和现有模型的局限。从小处着手从简到繁不要一开始就试图用AI重建整个地球系统。从一个明确的、边界清晰的子问题开始比如“用ML改进某个气候模式中的对流触发函数”。重视基准测试与对比你的ML方法必须与现有的、最好的物理或统计基准方法进行公平、全面的比较。不仅要看RMSE更要看物理统计量、计算效率、和稳定性。拥抱开源与协作这个领域发展极快。积极参与开源社区如ClimSim, EarthAI使用公开基准如ChaosBench与物理学家、计算机科学家、数学家紧密合作。保持批判性思维对任何“惊人”的结果保持警惕。仔细检查数据泄露、过拟合、评估指标是否合理。记住我们的目标是增进对地球系统的理解而不仅仅是提升某个排行榜的分数。机器学习正在重塑气候科学的研究范式但它不是万能药。最激动人心的成果永远来自那些深刻理解物理、敬畏数据复杂性、并巧妙运用算法工具的研究者。这条路充满挑战但也正是其魅力所在。