
摘要海量公共代谢组学数据整合了数千项研究成果但长期难以实现高效检索与深度挖掘。本研究开发了网页端工具StructureMASST可依托分子名称或化学结构式在各大公共代谢组学数据库中开展规模化、以化学结构为核心的检索。该工具依托预构建知识库完成检索库内包含21.9亿条谱图匹配结果与4.2亿条元数据关联信息支持耐受化学修饰检索与质量偏移检索可将化学结构与物种分类、生物学背景、环境条件进行关联解析进而加快科研发现进程。https://structure-masst.gnps2.org/elabieadgmail.commingxun.wangcs.ucr.edupdorresteinhealth.ucsd.edu#代谢组学 #串联质谱 #基于结构检索 #谱图匹配 #元数据 #公共数据库 #代谢物修饰StructureMASST设计思路与核心功能图1FASSTrecords与StructureMASST整体架构a. 传统单图谱MASST检索流程需使用者掌握多种工具与专业知识、具备质谱分析能力依靠专家筛选单张特征图谱手动整合元数据仅能检索目标分子对应的部分谱图。b. StructureMASST优化后的检索流程无需复杂专业背景支持基于完整结构/子结构检索全部串联质谱图谱与配套元数据实现生物背景关联分析同时兼容耐受修饰检索可完成多图谱联合检索。c. FASSTrecords数据整合逻辑整合全球公共代谢组学数据集依托GNPS2、MassBank、MoNA等谱图库建立分子与化学结构的关联通过整型索引键统一接入结构化查询语言SQL数据库。d. 数据库核心表结构与数据规模数据库包含4张关联数据表累计完成12.04350873亿条谱图匹配整合920,790个原始数据文件、4,990套数据集、18亿张串联质谱图谱结合PanReDU完成原始文件元数据索引实现分子分布、子结构分布、分子类似物分布的可视化检索。e. StructureMASST网页交互界面支持基于结构检索库谱、多图谱联合匹配、分子分布解析等功能。Multi-MASST两大检索运行模式多图谱联合检索分为探索式检索、预计算检索种模式者在检索速度、适用范围上存在差异。表1存储公共代谢组学数据注释信息的SQLite数据库表结构典型应用案例功能实测研究选取咖啡因、表面活性素、铁载体类化合物、抗抑郁药舍曲林、抗心律失常药胺碘酮等多类物质开展实例验证覆盖全结构检索、子结构检索、类似物/代谢物检索大场景。图2 基于子结构与结构类似物的代谢物图谱解析a. 水杨酸-噻唑啉子结构检索结果基于该核心子结构检索得到9种化合物的串联质谱图谱余弦阈值0.7匹配峰数≥5多图谱联合检索证实这类分子同时存在于细菌与人类样本中。b. 舍曲林类似物检索结果该抗抑郁药及其类似物仅在人体组织样本中检出余弦阈值0.6匹配峰数≥5筛选条件为母体离子与类似物离子共存于同一原始文件。c. 质量亏损分析区分含氯/无氯、单氯/二氯代谢物判定离子碎片的氯原子组成标注结果可信度高低。d. 保留时间共流出分析质量偏移-31.04 Da的碎片与母体离子共流出证实该碎片为源内碎片离子并非真实体内代谢产物。e. 舍曲林羧基化修饰质量偏移 43.99 Da位点解析红色标注为修饰高概率发生位点。f. 舍曲林戊糖结合修饰质量偏移 148.04 Da位点解析红色标注为修饰高概率发生位点。数据本研究所用全部质谱原始数据均可在大公共代谢组学数据库获取GNPS/MassIVE、MetaboLights、Metabolomics Workbench和NORMAN/DSFP已完成元数据标准化的参考谱图库可访问链接https://external.gnps2.org/gnpslibrary预计算数据库FASSTrecords会定期更新稳定版本与实时版本分别发布于https://zenodo.org/records/18199544https://masst-records.gnps2.org/masst_records该数据库遵循ODC-ODbL开放数据库协议代码StructureMASST工具的完整源代码已托管至GitHub开源平台https://github.com/Wang-Bioinformatics-Lab/Structure_MASST_App详细总结思维导图存储公共代谢组学数据注释信息的SQLite数据库表结构参考Nat Biotechnol. 2026 Apr 15. doi: 10.1038/s41587-026-03082-8.Structure-centric searching enables global mapping of the public metabolome260415StructureMASST.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。