
FusionESP 论文精读用投影对齐改进酶-底物配对预测论文FusionESP: Improved Enzyme-Substrate Pair Prediction by Fusing Protein and Chemical Knowledge作者Zhenjiao Du, Weimin Fu, Xiaolong Guo, Doina Caragea, Yonghui Li期刊Journal of Chemical Information and Modeling, 2025, 65(6): 2806-2817DOIhttps://doi.org/10.1021/acs.jcim.4c02357资料来源本地 PDF、ACS 页面、PubMed 记录、Zenodo 数据集、GitHub 代码库相关资源ACS DOI、PubMed、Zenodo 数据、GitHub文章一句话总结FusionESP 证明了冻结的蛋白语言模型和化学语言模型经过轻量投影头对齐后可以在酶-底物配对预测中达到优于既有重型融合模型的测试表现并保留较好的计算效率和泛化能力。摘要为降低实验表征酶潜在底物的成本机器学习预测模型提供了一种替代方案。预训练语言模型作为蛋白质和分子表征的强大方法已被用于开发酶-底物预测模型并取得了有潜力的表现。除了持续改进语言模型本身如何有效融合编码器以处理多模态预测任务也是利用现有表征方法进一步提升模型性能的关键。本文提出 FusionESP这是一种多模态架构整合蛋白语言模型和化学语言模型并通过两个独立投影头和一种对比学习策略来预测酶-底物配对。作者的最佳模型在独立测试数据上达到 94.77% 的准确率取得当前领先表现与既往采用微调编码器或使用更多编码器的研究相比该模型只需更少的计算资源和训练数据同时表现出更好的泛化能力。结果也支持了作者的假设正样本配对的嵌入在高维空间中更接近而负样本配对呈现相反趋势。消融研究显示投影头对性能提升起到关键作用对比学习策略进一步增强了投影头在分类任务中的能力。该架构有望进一步用于提升生物学中其他多模态预测任务的表现。作者还建立了一个用户友好的 FusionESP Web 服务器可免费访问https://rqkjkgpsyu.us-east-1.awsapprunner.com/。文章解决的主要问题该领域此前存在什么关键瓶颈酶能够催化大量生物和工程反应但系统性确定“某个酶是否以某个小分子为底物”仍高度依赖实验验证。 UniProt 数据集中酶相关序列数量巨大而高质量、人工整理的催化反应注释比例很低。该瓶颈直接造成两个问题一是湿实验筛选成本高二是训练数据稀疏机器学习模型在跨酶、跨小分子泛化时容易受限。该文章的具体科学问题或技术问题文章聚焦一个技术问题在已有强大预训练模型已经能分别表示蛋白序列和小分子结构的情况下如何把两类嵌入有效融合用于判断酶-底物是否匹配。作者把问题转化为几何对齐真实酶-底物对在同一高维空间中应更接近相似但不匹配的负样本应被拉开。为什么关注该问题酶-底物关系是理解代谢、发现生物催化剂、设计食品发酵过程、开发药物代谢和毒素降解方案的基础。若模型能在大规模候选组合中可靠排序就能把实验资源集中到更可能成立的配对上。对于酶工程和合成生物学这类模型的价值在于缩短候选筛选周期而非取代最终实验验证。既往研究做到哪一步既往模型已经使用 ESM-1b、GNN、ChemBERTa-2、多模态 BERT、交叉注意力或拼接策略处理蛋白-小分子相互作用。ESP 通过任务特异微调 ESM-1b 和 GNN 获得约 91.5% 准确率ProSmith 进一步加入额外的多模态 BERT 和梯度提升模型在相近任务上取得更好的结果。这些方法推动了领域进展也带来了额外预训练、模型微调、特征融合复杂度和长序列截断等成本。如果不解决这个问题会限制哪些后续研究或应用如果蛋白和化学表征融合效率不足模型可能在表面相似的小分子之间区分能力较弱对罕见酶或罕见底物的外推也会受限。这会影响大规模酶功能注释、未知底物发现、代谢网络补全、食品与环境生物催化应用中的候选优先级排序。作者提出的新思路是如何自然引出的作者从 CLIP 式跨模态对齐得到启发图像和文本可以通过独立编码器和投影头映射到共享空间正确配对更接近。酶序列和底物 SMILES 同样是两套“语言系统”。因此作者没有继续堆叠更复杂的融合编码器而是保留 ESM-2 和 MoLFormer 的预训练知识用两个独立投影头学习酶和分子在同一空间中的匹配关系。核心方法与技术路线数据来源或研究对象研究对象是酶-底物二分类配对。正样本来自 Gene Ontology 注释数据库主要使用实验依据和系统发育推断两类证据。有实验证据的数据集原始划分为 50,093 个训练对、5,422 个验证对、13,336 个测试对。依托系统发育证据的数据集包含约 765,635 个配对。底物需能映射到 KEGG、ChEBI 或 PubChem 标识符。负样本通过 RDKit 指纹相似度生成对每个真实底物随机采样与其相似度较高、但未标注为真实底物的小分子默认相似度范围为 0.7-0.95若候选不足则逐步放宽下限。这一设计使负样本更像“难负样本”测试模型区分相似小分子的能力。核心实验/计算/模型方法FusionESP 由两个平行模块组成酶分支输入氨基酸序列使用 ESM-2 生成蛋白嵌入平均池化为固定长度向量再经投影头映射到 128 维。底物分支输入 canonical SMILES使用 MoLFormer 生成分子嵌入平均池化为 768 维向量再经投影头映射到 128 维。匹配判定计算两个 128 维向量的余弦相似度将正样本标签设为 1、负样本标签设为 0用 MSE 损失训练投影头。两个预训练编码器均冻结。模型训练阶段只训练投影头从而减少显存、时间和训练数据需求。原文图 1 展示了这一双塔结构。关键算法和计算过程的细致解析第一步是表征生成。ESM-2 把长度为 L 的酶序列编码为逐残基矩阵作者使用平均池化把可变长度矩阵压缩为固定维度向量。本文测试了 ESM-2-35M、ESM-2-650M、ESM-2-3B 三种模型输出维度分别为 480、1280、2560。MoLFormer 把 SMILES 编码为分子向量并经平均池化得到 768 维表示。第二步是投影头对齐。每个投影头包含全连接层、批归一化、ReLU、瓶颈层和 L2 归一化。第一层维度与输入嵌入维度对应第二层把嵌入压缩到 128 维。两个投影头参数独立但最终目标共同作用于酶向量和底物向量的相似度。第三步是相似度学习。对一个酶-底物对模型输出两个 128 维向量的余弦相似度。MSE 损失直接约束相似度接近标签正对接近 1负对接近 0。作者使用 0.5 作为分类阈值并进一步指出 0.4-0.6 区间的预测更应视为不确定。关键指标或评价体系文章使用准确率 ACC、ROC 曲线下面积 AUC、Matthews 相关系数 MCC 评价模型。MCC 对正负比例不完全均衡的数据更有参考价值。泛化分析进一步按酶与训练集最大序列同一性、底物在训练集出现频次划分子集以观察模型面对罕见酶和罕见小分子时的表现。对照设计对照包括三类。第一类是同编码器的简单拼接基线直接拼接 ESM-2 和 MoLFormer 嵌入再用两层神经网络分类。第二类是既有模型 ESP 和 ProSmith。第三类是结构消融移除投影头第一层、去掉 ReLU、改变第二个全连接层瓶颈层维度、去掉归一化、把 MSE 换成交叉熵以及把投影头用于非对比拼接框架。方法之间的逻辑关系文章的逻辑链条很清楚预训练编码器提供通用蛋白和化学知识投影头负责把两类知识映射到同一任务空间余弦相似度负责表达配对强弱难负样本训练促使模型学习底物特异性差异消融和对照实验用于证明性能提升主要来自投影对齐策略和投影头结构。核心发现发现 1双投影头对齐策略优于简单拼接。证据在实验依据数据集上FusionESP-exp 的三种 ESM-2 配置均超过对应的简单拼接基线。ESM-2-35M MoLFormer 的提升最明显准确率从 86.42% 升至 92.21%ESM-2-3B MoLFormer 达到 93.57% ACC、0.9594 AUC、0.8314 MCC。意义这说明性能提升来自编码器质量和跨模态融合方式的共同作用。对相似底物负样本直接拼接会保留大量重复信息独立投影再比较相似度能更集中地学习酶和小分子的对应关系。发现 2加入系统发育证据数据后FusionESP-XL 达到最高报告性能。证据FusionESP-XL 先在系统发育依据数据集训练 500 个 epoch再在实验依据数据集继续训练 30 个 epoch。最佳模型 ESM-2-3B MoLFormer 在独立测试集上达到 94.77% ACC、0.9653 AUC、0.8628 MCC。意义更多带关系信息的数据能继续提升投影空间学习质量。实验依据数据进一步微调后性能提高提示近似任务数据和目标任务数据的组合对酶-底物模型很重要。发现 3投影头第一层和 MSE 损失对模型训练至关重要。证据在最佳 FusionESP-exp 消融中第一个全连接层第二个全连接层投影到 128 维时达到 93.57% ACC。移除第一个全连接层后准确率下降到约 73%-74%MCC 接近失效把 MSE 换成交叉熵后准确率仅 74.47%。意义投影头承担了特征重加权、非线性过渡和任务空间压缩。MSE 直接优化连续相似度二者共同支持“正对靠近、负对远离”的几何目标。发现 4模型对低同一性酶保持较好表现但相似训练样本仍会提升预测可靠性。证据FusionESP-XL 在酶与训练集最大序列同一性 0-40%、40-60%、60-80% 三个子集上分别达到 93.07%、96.12%、96.85% ACC。序列同一性越高AUC 和 MCC 也整体更高。意义FusionESP 对较远缘酶有一定泛化能力但仍受训练集中相近酶的支持程度影响。该结果提醒后续模型需要继续强化远缘酶外推验证。发现 5未见小分子仍是主要难点训练集中出现一次即可显著改善。证据FusionESP-XL 对训练集中从未出现的小分子 ACC 为 80.93%、MCC 为 0.2966对只出现一次的小分子ACC 升至 92.57%、MCC 升至 0.7654。出现频次超过 10 的小分子 ACC 为 95.86%、MCC 为 0.8995。意义模型更容易利用已见化学空间完成插值对真正新化学实体的外推有限。后续研究需要更严格的 scaffold split、冷启动小分子测试和反应机制信息补充。发现 6余弦分数可以作为实用的不确定性提示。证据原文图 3 显示正确预测多集中在接近 0 或 1 的分数区域错误预测在分数区间内更分散0.4-0.6 区间更容易出现错误。意义FusionESP 的输出可用于候选排序和人工复核优先级设置。分数接近 0.5 的预测不宜直接用于高成本实验决策应结合其他证据筛选。文章创新点科学问题创新文章把酶-底物预测明确建模为蛋白语言和化学语言的跨模态空间对齐问题。这一视角把“是否配对”转化为共享空间中的相似度学习并把研究重点放在表征对齐质量上。方法创新真正的新意在于冻结两个强预训练编码器并用两个独立投影头加 MSE 相似度目标完成轻量融合。该策略在同编码器对照和既有模型对照中都取得较好表现说明简单但合适的任务适配层可以替代部分重型多模态预训练。数据创新文章本身主要复用 Kroll 等研究构建的数据集并在 Zenodo 公开使用数据。数据创新程度有限亮点在于使用相同划分进行公平比较并对酶同一性和底物出现频次进行细分评估。机制创新文章没有揭示新的生物化学机制。它揭示的是模型层面的规律正酶-底物对在投影后空间中更接近投影头结构对这种几何关系的学习很关键。应用创新作者提供了可用 Web 服务器和开源代码使模型能够作为候选酶-底物筛选工具。其潜在应用包括酶功能注释、底物发现、生物催化候选筛选和多模态生物预测任务迁移。常规工作包括使用预训练 PLM/CLM、平均池化、ACC/AUC/MCC 评价、与基线和 SOTA 比较。这些环节本身并非主要新意。文章的主要贡献集中在轻量投影对齐架构及其系统消融验证。对后续研究的启发对本领域研究范式的影响FusionESP 提供了一个值得借鉴的范式当领域已有强通用编码器时优先检验轻量任务适配与几何对齐再评估大型端到端多模态模型的必要性。这对数据稀缺的生物学任务尤其有现实意义。对后续实验设计或计算分析的启发后续实验可以把 FusionESP 用作候选优先级模型选择高分、低分和不确定区间样本进行分层实验验证。计算分析应更重视冷启动设定包括未见酶家族、未见底物骨架、未见反应类型以避免模型只在近邻插值场景下表现良好。对数据库、模型、算法、工具开发的启发数据库方面需要更系统记录负样本证据、底物范围和实验条件。模型方面可以把反应类型、EC 编号、活性位点、蛋白结构、底物构象或反应中心加入投影空间。算法方面可以探索更适合二元配对的监督对比损失、难负样本挖掘和校准方法。工具方面Web 服务器若能输出不确定性、适用域提示和相近训练样本将更适合实验用户。对转化应用或产业化的潜在价值FusionESP 适合用于早期筛选在大量酶和小分子组合中快速排序减少盲筛成本。潜在场景包括食品发酵代谢物转化、天然产物修饰、药物代谢酶筛查、环境污染物降解酶发现和生物制造路线设计。这篇文章还留下了哪些未解决问题文章没有解决真正新化学空间的外推问题。未见小分子 MCC 仍较低说明模型面对冷启动底物时可靠性有限。模型也没有显式利用反应机理、活性位点结构、底物构象和酶动力学条件。负样本来自相似分子采样仍可能包含未注释的真实底物或与真实实验负样本分布不同。文章局限性与可改进方向数据集是否充分数据规模对酶-底物建模而言仍有限且正样本来自数据库注释覆盖度和偏倚受既有研究历史影响。系统发育推断数据量更大但证据层级低于直接实验数据。实验数据集更可靠但规模较小。对照是否严格文章使用了同编码器拼接基线、既有 ESP/ProSmith 对照和多项消融整体较充分。不过对照仍主要围绕相同或相近数据划分。若要评价实际外推能力还需要更严格的时间切分、酶家族切分、底物骨架切分和反应类型切分。方法是否存在适用边界模型依赖蛋白序列和 SMILES 表征对长蛋白生成嵌入仍有显存压力。Web 服务器部署的是 ESM-2-650M 版本而最佳论文结果来自 ESM-2-3B。模型也不直接解释催化机制无法回答底物结合姿态、反应路径或动力学参数。结论是否可能被过度外推“达到 SOTA”应限定在作者使用的数据集、划分和比较对象范围内。未见小分子和低同一性酶的结果显示模型仍有适用域边界。模型输出高分并不等同于实验证实可催化也不能推断反应速率或产物分布。后续需要哪些验证需要在真实湿实验中验证高分候选并报告阴性结果需要构建独立时间外测试集需要评价模型对新 scaffold、新酶家族和新反应类型的性能需要进行概率校准和置信区间评估需要把模型与结构、反应机理和实验条件结合。适合快速传播的问答式总结Q1这篇文章研究什么A文章研究如何预测酶和小分子是否构成真实底物关系。作者提出 FusionESP把酶序列和底物 SMILES 分别交给蛋白语言模型 ESM-2 与化学语言模型 MoLFormer再用投影头映射到同一空间用相似度判断是否配对。Q2为什么这个问题重要A实验确定酶-底物关系成本高、速度慢而酶注释数据库中高质量催化反应注释仍稀缺。可靠的计算模型可以帮助研究者从海量候选组合中优先挑选更可能成立的配对服务酶功能注释、生物催化和代谢研究。Q3作者解决了什么具体问题A作者解决的是多模态表征融合问题。已有蛋白和化学预训练模型很强但把两者简单拼接并不总能充分表达“酶与底物是否匹配”。FusionESP 用双投影头学习共同空间中的配对几何关系。Q4FusionESP 的核心方法是什么A模型冻结 ESM-2 和 MoLFormer只训练两个独立投影头。酶和底物被映射为 128 维向量后模型计算余弦相似度并用 MSE 损失让正样本相似度接近 1、负样本相似度接近 0。Q5模型表现如何A最佳 FusionESP-XL 使用 ESM-2-3B 和 MoLFormer先用系统发育依据数据训练再用实验依据数据继续训练在独立测试集上达到 94.77% ACC、0.9653 AUC、0.8628 MCC。Q6最大创新点是什么A最大创新点是用轻量投影对齐替代复杂多模态融合。作者没有额外训练多模态 BERT也没有微调整个编码器而是证明小投影头足以把蛋白和化学嵌入组织成更适合酶-底物判断的空间。Q7投影头真的重要吗A消融实验显示非常重要。移除投影头第一层后模型准确率从 93.57% 降到约 73%-74%MCC 接近失效。把 MSE 换成交叉熵也明显损害表现说明连续相似度学习是关键。Q8模型泛化能力怎么样A对低序列同一性的酶FusionESP-XL 在 0-40% 同一性子集上仍有 93.07% ACC。但对训练集中从未出现的小分子MCC 只有 0.2966说明真正新化学空间仍然困难。Q9结果对实验研究有什么帮助AFusionESP 适合做候选排序把实验验证集中在更可能配对的酶-底物组合上。作者还提示余弦分数 0.4-0.6 的预测更不稳定这一区间样本应结合其他证据审慎处理。Q10后续研究可以怎么推进A后续可以加入活性位点、结构、反应类型、底物构象和实验条件信息建立更严格的冷启动测试并用真实湿实验验证高分候选。模型也需要更好的不确定性校准和适用域提示。文章总结图最终总评这篇文章值得读因为它抓住了酶-底物预测中一个很实际的问题在强预训练模型已经可用时跨模态对齐方式会显著影响最终性能。FusionESP 的优势在于结构简洁、消融完整、和既有模型比较清楚能够为数据相对稀缺的生物多模态任务提供可复用思路。它适合关注酶挖掘、蛋白语言模型、化学语言模型、药物靶标/蛋白小分子相互作用预测和生物催化筛选的研究者阅读。文章最大的贡献是证明冻结编码器加轻量投影头可以在酶-底物任务中达到强表现同时揭示投影空间设计对泛化和不确定性判断的重要性。需要注意的是模型仍然依赖已知关系数据对未见小分子和真实机制解释的能力有限后续实验验证和更严格冷启动评估仍不可缺。原文图导读Figure 1图 1 用于酶-底物配对预测模型的模型架构。 展示 FusionESP 的整体结构。酶序列进入 ESM-2底物 SMILES 进入 MoLFormer两个编码器输出经平均池化和独立投影头映射为 128 维向量最后用余弦相似度表示配对概率。该图对应本文“核心方法与技术路线”部分。Figure 2图 2 使用 ESM-2-3B 和 MoLFormer 的 FusionESP-XL 预测性能。 作者按照酶序列同一性水平和小分子在训练集中出现频率把测试数据集划分为多个子集。源数据作为 Source Data 文件提供。图意说明模型性能同时受酶相似度和底物出现频次影响。酶越接近训练集、底物在训练集中越常见预测越可靠。最困难的是低同一性酶配对未见小分子的组合。Figure 3图 3 接近 0.5 的预测分数表示模型不确定性。 堆叠直方图显示正确预测和错误预测的预测分数分布。插图放大了 0.2-0.8 区间。分数由使用 ESM-2-3B 和 MoLFormer 的 FusionESP-XL 预测得到。 图 3 将模型相似度分数解释为置信度提示。正确预测多集中在接近 0 或接近 1 的区域0.4-0.6 区间错误比例更高适合作为人工复核和实验优先级设计的警戒区。图形摘要FusionESP 的消融实验主要是在问两件事投影头内部哪些组件真正有用性能提升来自投影头本身还是来自“对比式相似度学习”这个训练方式他们用最佳的FusionESP-exp做消融ESM-2-3B编码酶MoLFormer编码底物只用实验依据数据集训练。完整模型是ESM-2 / MoLFormer embedding - 第一全连接层 - BatchNorm - ReLU - 第二全连接层压到 128D - BatchNorm/L2 - cosine similarity - MSE loss完整模型结果是ACC 93.57%,AUC 0.9594,MCC 0.8314。消融怎么做他们逐个改投影头组件改 bottleneck 维度32、64、128、256、512性能都在 93% 左右128 最好说明瓶颈大小有影响但不是主因。去掉第一全连接层性能直接崩ACC 74.31%或约73.63%MCC 接近失效。去掉 ReLUACC 92.21%下降但还能学。去掉 BatchNormACC 92.01%下降但不致命。去掉 L2 normalizationACC 93.42%影响很小。把 MSE 换成 cross entropyACC 74.47%也明显崩。然后他们又做了“无对比学习”的消融把蛋白和分子嵌入拼接起来用类似投影模块加分类头。这个版本大概能到91-92% ACC说明投影模块本身有用但完整 FusionESP 的93.57%更高说明“投影头 cosine/MSE 对齐”的组合更适合这个任务 。为什么第一个全连接层这么重要第一全连接层表面上像“没压缩”的 identity mapping例如 ESM-2-3B 的酶向量是 2560 维第一层仍保持 2560 维MoLFormer 的分子向量是 768 维第一层仍保持 768 维。但它不是空操作而是一个可学习的任务适配器。它至少做了三件事特征重加权ESM-2 和 MoLFormer 的原始嵌入是通用表示不是专门为“这个酶是否催化这个底物”训练的。第一层先把通用特征重新组合让哪些维度对酶-底物兼容性更重要变得可学习。给压缩做缓冲如果直接从 2560/768 维压到 128 维模型等于一步完成“筛特征 融合任务信息 压缩空间”。信息损失和优化压力都很大。第一层先在原维度里调整表示再由第二层压到 128D学习会稳定得多。建立适合余弦相似度的几何空间FusionESP 最终靠 cosine similarity 判断正负配对。第一层帮助把蛋白和分子嵌入变成更容易被投影到同一空间的形状。没有它第二层虽然仍可学习但很难同时完成跨模态对齐和强压缩。所以这篇文章真正说明的是投影头不是简单降维层而是把冻结 PLM/CLM 嵌入转成酶-底物兼容性空间的关键适配模块。一句话概括第一全连接层重要是因为它先把“通用蛋白/化学表示”变成“任务相关表示”再让模型压缩到共享 128D 空间少了这一步模型几乎是在生硬地把两种异质嵌入直接压成相似度分数学习会明显失稳。最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com