AI虚拟细胞:流匹配+原生Transformer

发布时间:2026/6/18 23:55:19

AI虚拟细胞:流匹配+原生Transformer 摘要预测单细胞在基因编辑、化学药物、细胞因子等外界扰动下的转录响应是计算生物学与人工智能虚拟细胞AIVC领域的核心难题对药物研发、基因调控网络解析具有重要应用价值。现有方法大多依靠辅助细胞状态编码器、层级变分自编码器、专用Transformer编解码模块或基因相互作用先验将高维基因表达谱压缩为隐表征。这类方案虽具备一定效果但会提升模型架构复杂度同时限制扩展性与泛化能力。本文提出款基于流匹配的轻量化人工智能虚拟细胞模型OCOO-T用于转录扰动响应预测。该模型采用标准Transformer架构直接对连续型基因表达谱进行建模并将扰动响应预测任务转化为连续时间去噪过程通过自适应层归一化与上下文令牌融合扰动嵌入、药物剂量、细胞系/细胞类型等特征。研究在大基准数据集Tahoe100M、Replogle、PBMC上开展全面测试结果表明OCOO-T在多类扰动、多种细胞类型场景下均达到当前最优性能同时借助基因分块与解块策略可高效适配超长转录组序列。依托Transformer去噪框架在单细胞组学任务中的简洁性OCOO-T为虚拟细胞模拟提供了套高效、可扩展的技术方案。yalong.zhaoinfevo.ailipeng.laiinfevo.ai#转录扰动 #单细胞RNA测序 #流匹配 #Transformer #基因表达谱 #生成模型 #虚拟细胞模型方法Transformer去噪网络图1OCOO-T模型整体架构该模型采用标准Transformer块对连续基因表达谱执行去噪操作并结合扰动特征与细胞上下文完成条件约束条件表征与注入方式图2对照细胞上下文注入扰动预测任务中对照细胞(xc)与噪声表达特征同步输入模型的结构。长转录组序列适配图3基因分块策略该模块用于实现超长基因序列的建模实验基准数据集与数据划分表1基准数据集样本规模汇总基于原始h5ad文件核验基准实验结果图4 多维度性能雷达图3大基准数据集下各模型多维度性能可视化雷达图。评估指标包含差异表达基因重叠率、差异表达精度、表达变化方向一致性、皮尔逊差值相关系数、3类扰动区分分数。表2Tahoe100M数据集实验结果皮尔逊差值相关系数、差异表达基因重叠率、差异表达精度、变化方向一致性、L1/L2/余弦扰动区分分数、均方误差、平均绝对误差↑指标越高越好↓指标越低越好表3Replogle-Nadig数据集实验结果表4PBMC数据集实验结果长转录组序列生成结果表5不同分块尺寸下Replogle-Nadig数据集实验结果不同分块大小、不同预测范式下Replogle-Nadig数据集的模型性能结果图5训练收敛曲线对比图不同分块尺寸、不同预测范式速度场预测/表达值预测下各指标的训练收敛曲线。vpred 速度场预测xpred 表达值预测p8/p16/p32 分块尺寸为8/16/32。细胞上下文条件协变量嵌入vs对照细胞均值谱图6不同细胞上下文注入方式性能对比图Replogle-Nadig数据集上不同细胞上下文注入策略的性能对比。S1细胞系嵌入方案S2~S7基于对照细胞均值谱的方案对应细胞集大小依次为1、4、8、16、32、64。详细总结思维导图基准数据集覆盖3类典型扰动行业通用标准所有数据集统一预处理细胞文库归一化 log1p变换默认基于「2,000个高可变基因HVG」评估长序列实验除外。参考OCOO-T: A Simple and Scalable Virtual Cell Model for Transcriptional Perturbation Responsehttps://arxiv.org/pdf/2606.12838v1260612OCOO-T.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。

相关新闻