浙大周展等:突破性通用型蛋白质结合位点预测

发布时间:2026/6/9 10:40:01

浙大周展等:突破性通用型蛋白质结合位点预测 摘要精准识别蛋白质结合位点对解析蛋白质功能、阐释分子识别机制以及指导药物研发至关有效。现有基于序列的预测工具大多仅针对单一类型结合位点设计通用性不足而基于蛋白质结构的方法高度依赖高质量维结构模型应用场景受限。本研究提出ProSiteHunter款仅依托氨基酸序列即可统一预测蛋白质-DNA、蛋白质-RNA、蛋白质-蛋白质、抗体-抗原大类结合位点的通用框架。该框架融合经微调的蛋白质语言模型SiteT5以及从序列中提取的进化特征、几何特征与统计特征再通过多源特征融合模块MSFF对特征进行深度处理捕获序列双向语义、局部关联与全局依赖实现结合位点的全面表征大幅提升预测精度与泛化能力。在多组基准测试中相较于当前主流算法ProSiteHunter在蛋白质-DNA/RNA/蛋白质结合位点任务上的精确率-召回率曲线下面积PRAUC平均提升38.4%在难度最高的抗体-抗原结合位点任务中PRAUC提升15.1%。此外该工具可识别蛋白质局部柔性区域能够与AlphaFold3的预测结果形成互补并提升抗体-抗原相互作用的预测准确度。上述结果表明ProSiteHunter是款高效、通用的工具可精准且稳定地预测各类蛋白质结合位点。zhanzhouzju.edu.cnzxgzjut.edu.cnzgjzjut.edu.cn#人工智能 #计算生物学 #计算机科学 #语言模型 #分子识别 #蛋白质功能 #蛋白质配体 #氨基酸序列结果整体概述图1 ProSiteHunter整体工作流程(a) 从每条训练序列的多序列比对结果MSA中抽取子比对序列结合低秩自适应LoRA策略对ProtT5模型进行微调筛选最优SiteT5模型并提取特征嵌入对应图c。(b) ProSiteHunter以蛋白质序列为输入构建多层次序列表征经由多源特征融合模块MSFF捕获序列局部模式与全局依赖融合后的特征再通过多层交互学习模块MIL进一步优化最终由分类器输出每个氨基酸残基为结合位点的概率。图中蛋白质结构均为示意图。(c) 特征提取模块整合进化、几何、3类互补特征构建每个位点的多维表征所有特征统一称为序列表征sr。(d~f) 尺度感知编码器、上下文感知编码器、重要性感知编码器的网络结构。蛋白质-核酸结合位点预测性能图2 ProSiteHunter在蛋白质-核酸结合位点任务中的预测性能(a) 蛋白质-DNA、蛋白质-RNA 结合位点预测任务的受试者工作特征曲线ROCAUC(b) 蛋白质-DNA、蛋白质-RNA结合位点预测任务的精确率-召回率曲线PRAUC(c) ProSiteHunter与CLAPE-DB、CLAPE-RB、iDRNA-ITF、DRNApred模型的F1分数、马修斯相关系数MCC对比(d) 散点图ProSiteHunter分别与CLAPE-DB蛋白-DNA、CLAPE-RB蛋白-RNA在单条序列水平的AUC值对比(e) 半箱线图ProSiteHunter、CLAPE-DB、iDRNA-ITF在蛋白-DNA结合位点任务中正负样本的分类效果对比(f) 半箱线图ProSiteHunter、CLAPE-RB、iDRNA-ITF在蛋白-RNA结合位点任务中正负样本的分类效果对比。蛋白质-蛋白质、抗体-抗原结合位点预测性能图3ProSiteHunter在蛋白质-蛋白质、抗体-抗原结合位点任务中的预测性能(a) 蛋白质-蛋白质、抗体-抗原结合位点预测任务的ROCAUC曲线(b) ProSiteHunter与其他模型在PRAUC、F1分数、MCC三项指标上的对比蛋白-蛋白、抗体-抗原任务(c) 半箱线图ProSiteHunter与Seq-InSite、ISPRED-SEQ在蛋白-蛋白结合位点任务中正负样本分类效果对比(d) 半箱线图ProSiteHunter与SEMA2.0-1D、CALIBER在抗体-抗原结合位点任务中正负样本分类效果对比(e) CASP16测试靶标T1225PDB编号9CQA结合位点预测结果对比左侧为实验结构浅蓝色为抗体重链深蓝色为呼吸道合胞病毒糖蛋白橙色区域为真实结合位点中间为ProSiteHunter预测结果橙色为预测结合位点右侧为AlphaFold3预测结果橙色为预测结合位点。消融实验与可解释性分析图4 消融实验与模型可解释性分析(a) SiteT5特征嵌入与相对溶剂可及性RSA、ProstT5、极化率、疏水性、等电点、2级结构、氨基酸偏好性等典型特征的相关性分析(b) RSA特征与SiteT5、ProstT5、极化率、疏水性、等电点、2级结构、氨基酸偏好性等典型特征的相关性分析(c) 不同特征组的特征消融实验结果(d) 真实蛋白-DNA结合位点与ProSiteHunter预测位点的氨基酸偏好分布(e) 真实蛋白-蛋白结合位点与ProSiteHunter预测位点的氨基酸偏好分布(f) 多源特征融合模块MSFF、多层交互学习模块MIL的网络消融实验(g~i) 采用t分布邻域嵌入t-SNE将特征提取后、MSFF处理后、MIL处理后的高维特征降维至2维空间区分蛋白-DNA结合位点红色与非结合位点蓝色。识别多种结合模式与动态构象变化图5不同类型结合位点典型案例(a) 蛋白复合物PDB编号5H58天蓝色链霉菌CprB蛋白与对应操纵子序列绿色、黄色结合橙色区域为预测结合位点(b) 蛋白复合物PDB编号6D12人Larp7蛋白C端xRRM结构域与7SK茎环RNA绿色结合橙色区域为预测结合位点(c) 蛋白复合物PDB编号7MJS启动子超家族蛋白2A与配体复合物橙色区域为预测结合位点(d) 蛋白复合物PDB编号3E1Z沙加辛与木瓜蛋白酶的晶体结构橙色区域为预测结合位点(e) 鸡卵清溶菌酶形成的两种复合物PDB编号4GN4、1J1X橙色、红色分别标注预测结合位点红色为2种复合物的结合重叠区域。提升抗体-抗原相互作用下游预测效果图6 ProSiteHunter对抗体-抗原相互作用下游预测的提升效果(a) 引入预测表位特征前后的ROCAUC曲线对比(b) 2组模型的F1分数、精确率、召回率对比(c) 引入结合位点信息前后正样本的预测概率分布(d) 引入结合位点信息前后负样本的预测概率分布(e) 信号调节蛋白αSIRP α与对应抗体的相互作用概率分布(f) 丙型肝炎病毒E2蛋白HCV E2与对应抗体的相互作用概率分布。数据实验数据与ProSiteHunter源代码已在GitHub公开https://github.com/iobio-zjut/ProSiteHunterProSiteHunter在线预测服务器免费对外开放http://zhanglab-bioinf.com/ProSiteHunter/详细总结思维导图参考Adv Sci (Weinh). 2026 Jun 2:e75931. doi: 10.1002/advs.75931.ProSiteHunter: A Unified Framework for Sequence-Based Prediction of Protein-Nucleic Acid and Protein-Protein Binding Sites260602ProSiteHunter.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。

相关新闻