
论文总结1、有开源代码https://github.com/wanglf19/inClust_plus.2、在inclust整合聚类模型基础上改进设计了两个用于多模态数据处理的掩码模块即编码器前方的输入掩码模块和解码器后方的输出掩码模块。能够灵活处理不同模态如基因表达、染色质可及性、蛋白丰度的数据。3、模型能够用于多组学数据的插补、整合和生成。摘要背景随着单细胞技术的发展许多细胞性状都得以测量。此外多组学分析技术可以同时测量单个细胞中的两个或多个性状。为了快速处理积累的各种数据需要多模态数据集成的计算方法。结果在这里我们介绍了 inClust一个面向多组学的深度生成框架。它基于之前专门针对转录组数据的inClust构建并辅以两个为多模态数据处理设计的掩模模块编码器前方的输入掩蔽模块和解码器后方的输出掩模模块。InClust最初用于整合来自相似细胞群体的scRNA-seq和MERFISH数据并基于scRNA-seq数据进行MERFISH数据的输入。随后inClust被证明能够将多模态数据如带有基因表达、染色质可及性和蛋白质丰度的三模态数据与批量效应整合。最后inClust被用于整合一个无标记单模态scRNA-seq数据集和两个带标记多模态CITE-seq数据集将标签从CITE-seq数据集转移到scRNA-seq数据集并生成单模scRNA-seq数据中缺失的蛋白质丰度模态。在上述示例中inClust 的性能优于或可与相应任务中最新的工具相媲美。结论inClust 是处理多模数据的合适框架。与此同时inClust中掩码的成功实现意味着它可以应用于其他具有类似编码-解码架构的深度学习方法从而拓宽这些模型的应用范围。引言近年来单细胞技术的发展如单细胞RNA测序scRNA-seq[1 2]、转座酶可及染色质测序的单细胞测序法scATAC-seq[3]和单细胞亚硫酸氢盐测序scBS-seq[4]使得在单细胞中获得多种性状成为可能。这些单细胞方法极大地促进了我们对细胞的理解。因此揭示了细胞群体的异质性[2 5]推断了细胞发育轨迹[6]并重建了基因调控网络[7]。但以一种模态收集的数据只是细胞状态的有限侧面视角。为了获得更全面、更全面的信息需要将不同模态的数据整合在一起以更好地揭示数据的生物学意义。 最初不同模态数据的整合是通过计算方法完成的[8 9]。随后开发出能够在单一细胞中共同分析多个性状的多组学剖析技术[10]。多种方法如SNARE-seq[11]、sci-CAR [12]、Paired-seq [13]和SHAER-seq [14]可以同时测量单细胞中的基因表达和染色质可及性。通过测序CITE-seq对转录组和表位进行细胞索引可以联合分析基因表达和细胞表面蛋白面板[15 16]。scNMT-seq能够在单细胞中同时描绘染色质可及性、DNA甲基化和转录[17]。 在单细胞分析中已经开发出多种计算方法来处理和整合数据。有些方法是通用的方法可以处理来自相似群体中不同细胞的多个单模态数据或从单个单元提取的多模态数据[18]。另一些则专门设计用于处理多组学剖析技术生成的数据[19 20]。通常对于多组学剖析技术生成的数据不同模态的信息先由不同编码器编码然后整合到潜在空间中。编码器和模态之间的一一对应主要是因为不同模态的数据具有不同的数据格式和长度无法被同一编码器编码。编码完成后来自不同模态的编码信息通过对抗性损失[21]、专家混合[22]、注意力转移[23]、调控交互信息[24]等方式整合到潜在空间中。 在整合不同模态的数据后可以用一种模态的数据来推断另一种模态的数据[18]。与此同时多模态数据的整合使不同模态之间的转换成为可能[21]。此外多模态数据还可以作为参考生成单模态数据中缺失模态的数据[25]。 此前我们介绍了inClust集成聚类这是一个灵活的全整合深度生成框架用于转录组数据[26]。在这里我们通过增加两个新模块扩展了inClust即编码器前的输入掩膜模块和解码器后方的输出遮罩模见图1A。我们将增强后的inClust命名为inClust并证明它不仅能完成数据整合还能通过掩模模块的优点完成基因补补图1B。此外对于多模态数据集每种模态的数据类型不同inClust 采用了堆叠编码器和解码器的架构并与掩码模块。因此inClust 可以集成多模态数据不同模态对应不同的数据类型见图1C。最后使用了带有堆叠编码码器和掩码模块的 inClust 来解决跨模态生成问题见图 1D。所有结果都表明inClust是处理多模数据的理想工具添加掩码是多组学领域增强建模的合适方式。图1 inClust 的架构及其应用。AinClust 的架构。InClust 基于 inClust拥有 VAE 骨干编码器、采样部分和解码器和三个内置功能模块嵌入层将辅助信息嵌入潜空间向量算术部分执行信息整合分类器将单元群组成。此外为多模态数据处理设计的两个掩码模块被增强到原始的inClust一个位于编码器前方的输入掩码模块以及位于解码器后方的输出掩码模块。每个遮罩模块用于过滤不需要的值实现多模整合和翻译。B–D inClust 的应用。BinClust的交叉模态插补。有两个数据集一个来自scRNA-seq蓝色另一个来自MERFISH但缺少一些基因红色。InClust可以通过引用scRNA-seq数据集在MERFISH数据集紫色框内中归因缺失的基因。C由inClust实现的交叉模态整合。有两个配对数据集一个包含基因表达蓝色和蛋白质丰度绿色另一个包含蛋白质丰度红色和染色质可及性紫色。InClust可以整合这两个数据集中的三种模态。DinClust 的跨模态生成。共有三个数据集其中两个是基因表达蓝色和红色和蛋白质丰度绿色和橙色的配对数据集。第三个是单模态数据集仅包含基因表达数据紫色。InClust可以通过引用配对数据集生成第三个单模数据集的蛋白质丰度数据红框内结果InClust在整合scRNA-seq和MERFISH数据后为MERFISH数据输入基因inClust整合scRNA-seq和MERFISH数据的理由很简单只需将不同模态的多模态数据视为不同批次的scRNA-seq数据。此外输入掩膜模块和输出掩模模块将基于从scRNA-seq数据传递知识实现MERFISH数据中的基因补补见图2A。对于scRNA-seq数据inClust利用共同基因重建共同基因和scRNA-seq特异基因。重建的常见基因和scRNA测序特异性基因的表达谱与真实表达谱进行比较以更新模型参数见图2B。对于MERFISH数据仅重建了常见基因的表达谱用于参数更新图2C。尽管 MERFISH 数据中 scRNA-seq-特异性基因的表达未对模型参数的更新贡献但它们仍作为副产物被重建。由于用于scRNA-seq和MERFISH数据的编码器和解码器相同Merfish数据中scRNAseq特异性基因的重构表达可能依赖于从scRNA-seq数据中传递的知识见图2A。 为对比我们随机选择了MERFISH数据中80%的基因作为共同基因其余作为等待插补的测试基因scRNA-seq特异性如uniPort所述[18]。inClust 首先将 scRNA-seq 和 MERFISH 数据分别编码到潜在空间。作为输入数据图3A来自不同模态的编码表示也在潜在空间中被分离图3B。之后协变量模态通过向量减法去除不同模态的样本被混合并根据其细胞类型聚类图3C。作为uniPort[18]补值的计算基于中位和平均Spearman相关系数mSCC和aSCC以及中位和平均Pearson相关系数mPCC和aPCC分别用于补值和真实检测基因。如图所示inClust显示出更高的mSCC0.243、aSCC0.255、mPCC0.263和aPCC0.322高于uniPortmSCC 0.236aSCC 0.247mPCC 0.233aPCC 0.274Fig. 3D。图2 inClust对多单模未配对数据及随后基因补补的整合图详见附加文件2。A工作流程。训练1 生成训练数据集。scRNA-seq和MERFISH的数据与共同基因比对而MERFISH数据中缺失的scRNA-seq特异基因则填入0。2 在 inClust 中生成编码器的掩码输入。3 数据编码、协变量消除和数据集成。4 重建了常见基因和scRNA序列特异性基因的表达谱。5 生成掩蔽输出以计算损耗。6 反向传播损失的计算。补值训练后解码器输出步骤4将将缺失的scRNA序列特异基因归入MERFISH数据中。B 在Clust中训练使用scRNA-seq数据。在编码器中只有常见基因的表达数据是有效输入。因此在编码器的第一层只有对应的连接实际参与编码过程。在解码器中共同基因和scRNA序列特异性基因都会被重建并通过掩膜。计算出输入与输出之间的损失包含共同基因和特异基因最后一层的所有连接均对损失有贡献。简而言之inClust利用共同基因重建共同基因和scRNA序列特异性基因。C在Clust中用MERFISH数据进行培训。在编码器中只有常见基因的表达数据是有效输入。因此在编码器的第一层只有对应的连接实际参与编码过程。在解码器中共同基因和scRNA序列特异基因被重建而scRNA-seq特异基因则被输出掩码过滤掉。损失是根据共同基因计算的因此只有解码器最后一层对应的与共同基因对应的连接才会参与损失的计算。简而言之inClust 利用共同基因重建共同基因。然而训练后inClust会从共同基因输入中输出共同基因和scRNA测序特异性基因图3 inClust对多个单峰未配对数据的整合结果随后进行基因补补。A 根据模态顶部和细胞类型底部着色的scRNA-seq和MERFISH数据前50个PC的UMAP图。B inClust中scRNA-seq和MERFISH数据的低维表示及其协变量效应的UMAP图按模态上和细胞类型底部着色。C inClust中scRNA-seq和MERFISH数据的低维表示不含协变量效应UMAP图按模态上和细胞类型下着色。D inClust与uniPort的补补能力比较。绘制了aPCC和mPCCn12以及aSCC和mSCCn12的箱形图分布在inClust和uniPort生成的真实与推算MERFISH基因之间InClust 集成多组学数据集单细胞多组学可以同时从单个细胞的不同细胞组成部分提取信息这些成分具有不同的数据类型和长度。通过灵活调整输入输出掩模模块inClust 可以被转换为专门用于多模态数据处理的模型。为了同时使用多种模态的数据所有模态的数据会在输入中堆叠在一起图4A。因此在模型中编码器的第一层可以被视为多个独立的神经网络层叠加在一起每个部分对应于一个模态的数据图4B–F例如一个用于基因表达一个用于蛋白质丰度另一个用于为了实现染色质的可及性。解码器的最后一层也被划分为多个部分每个部分重建来自一种模态的数据。模型训练分为多个阶段可分为自我重建和替代重建。自我重建意味着inClust使用一种模态的数据来重建自身例如图4B中inClust利用基因表达数据重建基因表达数据。相反替代重建意味着inClust使用一种模态的数据重建另一种模态的数据例如在图4E中inClust使用蛋白质丰度数据重建基因表达数据。其原理如下在自我重建阶段编码器第一层的每个组件与解码器最后一层的相应部分耦合。这可以看作是对同一模态数据的编码器/解码器组合。每个编码器/解码器组合的更新相对独立。相比之下在替代重建阶段编码器第一层的每个组件与解码器最后一层的另一部分耦合。这是试图在单一单元格中转换不同模态并更深入地整合它们的尝试。此外不同数据集间的批次效应可以通过潜空间中的向量算术显式去除形成原始的inClust图4A。我们首先应用inClust将多模PBMC数据与scATAC-seq数据及scRNA-seq数据进行集成附加文件1图S1。在整合之前scATAC-seq数据和scRNA-seq数据在原始空间中被分离附加文件1图S2A。图4 inClust用于多模态三重数据集整合的示意图详见附加文件2。A工作流程。训练1 生成训练数据集蓝色数据集1的基因表达;绿色和红色数据集1和数据集2的蛋白质丰度;紫色数据集2的染色质可达性;黑色0值填充。2 inClust编码器掩码输入的生成。3数据编码、协变量消除和数据集成。4 三种模态数据的重建深蓝色和黄色数据集1和数据集2的基因表达重建;浅绿色和浅红色数据集1和数据集2的蛋白质丰度重建;橙色和浅紫色数据集1和数据集2的重建染色质可及性。5 生成掩蔽输出以计算损失。6 计算反向传播的损失。数据集成训练后编码的低维表示根据细胞类型混合并聚类不受协变量批次和模态影响。B–D 自我重建。B 在第一训练阶段只有基因表达数据对输入蓝色长条和输出深蓝色长条有效。因此只有编码器第一层上部和解码器最后一层上部对应的连接实际参与训练过程。简而言之inClust 利用基因表达数据进行自我重建。C 在第二和第三训练阶段只有蛋白质丰度数据有效用于输入绿色和红色长条和输出浅绿色和浅红色长条。因此只有编码器第一层中间部分和解码器最后一层中间部分对应连接实际参与训练过程。简而言之inClust 利用蛋白质丰度数据来重建自身。D 在第四训练阶段只有染色质可达性数据有效用于输入紫色长条和输出浅紫色长条。因此只有编码器第一层下半部和最后一层下半部对应的连接对训练过程有贡献。简而言之inClust 利用染色质可及性数据进行重建。E F 替代重建。E 在第五训练阶段只有蛋白质丰度数据有效绿色长条基因表达数据有效用于输出深蓝色长条。因此只有编码器第一层中间部分和解码器最后一层上半部分对应的连接实际参与训练过程。简而言之inClust 利用蛋白质丰度数据重建基因表达数据。F 在第六训练阶段只有蛋白质丰度数据红色长条有效染色质可及性数据有效用于输出浅紫色长条。因此只有编码器第一层中间部分和解码器最后一层下半部分对应的连接才真正参与训练过程。简而言之inClust 利用蛋白质丰度数据重建染色质可及性数据经过 inClust 整合后scATAC-seq 和 scRNA-seq 的数据在潜空间中混合附加文件 1图 S2B。与 uniPort 类似批次熵分数用于测量数据集间细胞混合的程度Silhouette 系数用于评估生物区分的分离[18]。结果显示inClust 获得了 Batch 熵得分为 0.686Silhouette 系数为 0.808远高于 uniPort、harmony 和 scVI批次熵得分为 0.619、0.678 和 0.576。Silhouette 系数为 0.64、0.604 和 0.616附加文件 1图 S2C。随后我们应用模型整合了多个带有批量效应的多模态数据集。在第一个例子中使用了来自不同捐赠者的CITE-seq数据集均有批量效应附加文件1图S3。CITE-seq数据集中同时包含基因表达数据补充文件1图S4A和蛋白质丰度数据补充文件1图S4B存在批次效应。inClust 整合了潜空间中不同模态的数据补充文件 1图 S4C。向量算术进一步整合了不同批次的数据附加文件 1图 S4D。结果显示inClust 获得了 0.641 的批次熵得分和 0.724 的 Silhouette 系数远高于 harmony 和 scVI批次熵得分为 0.225 和 0.375Silhouette 系数为 0.416 和 0.39补充文件 1图 S4E。在第二个例子中使用了 CITE-seq 数据集基因表达和蛋白质丰度和 ASAP-seq 数据集蛋白质丰度和染色质可达性图 4[27]。有三种模态基因表达、蛋白质丰度、染色质可及性蛋白质丰度数据在两个数据集中均存在且具有批次效应。如同第一个例子inClust 在潜空间中整合了来自不同模态的数据图5A。向量算术进一步整合了不同批次的数据图5B。我们通过调整后的兰德指数ARI和归一化互信息NMI指标比较了 inClust 与 scMoMat 的整合结果NMI 使用了之前识别的七种细胞类型标签作为真实聚类标签[27]。结果显示inClust 获得了 ARI 为 0.957NMI 为 0.949远高于 scMoMatARI 为 0.585NMI 为 0.650图 5C。inClust 的跨模态生成图5 inClust对多个多模态数据集积分的结果。A inClust中CITE-seq和ASAP-seq数据的低维批处理表示图按协变量上方和单元类型下方着色。B inClust中CITE-seq和ASAP-seq数据中无批次效应的低维表示图由协变量上方和单元类型下方着色。C inClust与scMoMaT数据集成结果比较。绘制了inClust和scMoMaT结果的ARI和NMI条形图多组学数据集包含多种模态数据可作为参考将单模态数据补充为多模态数据。我们的inClust可以从多组学参考中提取信息并将单模态数据转换为另一种模态数据。作为多模态集成的情形编码器的第一层和解码器的最后一层可视为多个独立的神经网络层叠加处理多种模态的堆栈数据图6A。从基因表达数据转换为多模态参考中蛋白质丰度数据的转换在每轮训练中分两个阶段完成。第一阶段inClust 利用基因表达数据重建自身图6B。或者在第二阶段inClust 利用基因表达数据重建蛋白质丰度图6C。单模态数据还有第三阶段需要完成。在此阶段inClust 利用基因表达数据在单模态数据集中重建自身图6B。训练完成后inClust 可以将多模态参考中的基因表达数据标签转移到单模态数据集中的基因表达数据。同时基于单模态数据集中的基因表达数据可通过自动翻译生成相应的蛋白质丰度数据。我们评估了 inClust 通过两个 CITE-seq 参考和一个 scRNA-seq 数据集将单模态数据集完成为多模态数据集的能力。UMAP 图显示 inClust 能够很好地整合不同数据集的基因表达数据图7A附加文件1图 S5。标签转移结果绘制在混淆矩阵中显示 inClust 优于 sciPENNinClust 的准确率为 0.947图7BsciPENN 为 0.915图7C。inClust 生成的蛋白质丰度数据由 UMAP 可视化图 7D。蛋白质丰度的预测准确度通过计算预测数据与实际数据之间的Pearson相关系数和Spearman相关系数来测量。结果显示inClustmSCC 0.334mPCC 0.376与sciPENNmSCC 0.356mPCC 0.405相当后者专门针对CITE-seq多模态数据进行蛋白质丰度预测优化[25]图7E图6 inClust 跨模态生成图详见附加文件2。A 工作流程。训练1 生成训练数据集蓝色、红色和紫色来自数据集1、数据集2和数据集3的基因表达;绿色和橙色来自数据集1和数据集2的蛋白质丰度;黑色0值填充......2 生成编码器在inClust中掩码输入。3数据编码、协变量消除和数据整合。4解码器同时输出重建的基因表达数据和重建后的蛋白质丰度数据浅蓝、浅红和浅紫色数据集1、数据集2和数据集3的基因表达重建;浅绿色、淡黄色和棕色数据集1、数据集2和数据集3的重建蛋白质丰度。5 生成掩蔽输出以计算损耗。6 计算反向传播的损失。标签传输与跨模态生成训练后标签从多模态数据单元格传输到同一簇内的单模态单元格。解码器输出步骤4将生成单模态数据中缺失的模态。B 在Clust中训练基因表达数据。在这些阶段只有基因表达数据对输入蓝、红和紫色长条和输出浅蓝、浅红和浅紫色长条有效。因此只有编码器第一层上部和最后一层上部对应的连接实际参与训练过程。简而言之inClust 利用基因表达数据进行重建。C 用基因表达数据在Clust中训练并将其转化为蛋白质丰度数据。在这些阶段只有基因表达数据有效用于输入蓝色和红色长条蛋白质丰度数据有效用于输出浅绿色和淡黄色长条。因此只有编码器第一层上部和解码器最后一层下部对应的连接实际参与训练过程。简而言之inClust 利用基因表达数据重建蛋白质丰度数据讨论本文描述了通过添加输入掩码模块和输出掩模模块来增强inClust的方法称为模型inClust的增强版。我们将inClust应用于多种数据集包括多个单模未配对数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中inClust展示了其数据集成、补值和数据生成的能力。首先借助掩膜模块的优点inClust通过引用具有相似细胞种群的scRNAseq数据来推断MERFISH数据。随后评估了inClust在叠加编码-解码架构和掩码模块中的多模态集成能力。结果显示inClust 不仅能混合不同模态的数据还能区分生物差异并消除批处理效应。最后inClust 被用于将数据整合到单模态数据集和多模态数据集。结果显示inClust 可以将标签从多模态数据转移到单模态数据补充单模态数据中缺失的模态。inClust 的应用不限于上述情况。对于基因补补会出现所有数据集都有其特定基因的情况而不仅仅是一个数据集拥有独特基因。通过调整输出掩码inClust 可以基于共享基因整合两个数据集并通过引用对应数据集中的具体基因来补值两个数据集中的其余基因。对于缺失模态生成有在所有数据集都有其特定模态的情况下inClust 可以基于共享模态整合这两个数据集并通过引用相应数据集中的具体模态生成各自缺失的模态。由于 inClust 是多模态应用中 inClust 的扩展因此 inClust 和 inClust 可以作为整体整合与其他积分方法相比。我们的模型inClust 和 inClust 与其他集成方法的区别在于其适应不同情境的灵活性以及尽可能整合信息的能力。这种灵活性体现在以下两点。首先正如我们在 inClust 中描述的标签信息可以灵活处理 [26]。这一优点也被 inClust 继承体现在 inClust 可以以半监督模式将标签从参考数据集传输到查询数据集。其次这两点inClust 中的掩码模块可以灵活调整以应对不同输入。模型尽可能整合信息的能力体现在以下两点。首先inClust 证明模型不仅可以使用表达数据还能使用协变信息如批处理和标签信息 [26]。这一优点也被 inClust 继承。其次如 inClust 所示模型不仅可以利用共享数据共享基因表达或共享模态进行整合还能利用特定基因或模态来实现缺失基因补补或缺失模态生成。简而言之我们的模型不仅能集成数据还能基于数据整合完成其他下游任务例如分布外生成、标签转移和新类型识别、空间域分割、跨模态补补与生成。添加掩码是深度学习中增强模型的常见方式[28]。在inClust中我们通过一对掩模模块输入掩模模块和输出掩模模块来增强模型。掩码的灵活设计和使用使模型能够完成一系列任务这些任务通常需要多个模型分别完成。例如inClust可以利用通用和数据集特异基因进行集成和补值如uniPort [18]。掩蔽使事情变得简单输入掩码筛除对应数据中的共同基因输出掩码筛除共同且数据集特异的基因。同时inClust可以集成多模态数据集以实现多域翻译作为跨模态自编码器[21]。输入掩码和输出掩码使inClust形成多个独立且相关的编码-解码器组合。因此inClust 不仅可以压缩和重建同一模态的数据还能将一种模态的数据压缩并重构为另一种模态从而实现跨模态翻译。此外inClust 可以集成多模态数据集和单模态数据集将标签从多模态数据转移到单模态数据并通过数据生成将单模态数据完整为多模态数据如 sciPENN [25]。InClust 指的是多模态数据集用于生成单模态数据集中缺失模态的数据。一般来说作为一种模型增强技术向模型添加一对掩码不仅限于 inClust还可以扩展到具有类似编码-解码结构的深度学习模型如 scArches [29]。图7 inClust对跨模态生成的结果。A inClust基因表达数据低维表示不含协变量效应的UMAP图左侧为协变量右侧为细胞类型。B inClust生成的结果混淆矩阵热图均中精度为上方。C sciPENN生成结果混淆矩阵热图平均精度为上方。D umap图inClust生成的蛋白质丰度数据可视化。E inClust与sciPENN跨模态生成结果的比较。绘制了inClust与sciPENN生成的PCC和SCC蛋白的箱线图总结inClust 通过使用两个掩模模块实现了多模态数据处理的能力。它可以通过引用具有相似细胞群体的 scRNA-seq 数据来在 MERFISH 数据中归因基因。它还证明了能够将多模态数据如带有基因表达、染色质可达性和蛋白质丰度的三模态数据与批处理效应整合。此外inClust 还用于整合未标记的单模态 scRNA-seq 数据集和带标记的多模态 CITE-seq 数据集将标签从 CITE-seq 数据集转移到 scRNA-seq 数据集并生成单模态 scRNA-seq 数据中缺失的蛋白质丰度模态。尽管上述任务有所不同inClust 可以灵活地调整掩模模块以适应相应任务。而且 inClust 在相应任务中的表现优于或可与最新工具相当。inClust 中掩码的成功实现意味着通过遮罩模块的增强在其他领域也有应用采用类似编码-解码器架构的深度学习方法以拓宽这些模型的应用范围。方法数据集和预处理脑 scRNA-seq 和 MERFISH 数据集小鼠大脑的 scRNA-seq 和空间转录组数据集分别来自基因表达全集GSE113576 Gene Expression Omnibus[30][30]和 Dryad 存储库[https://datadryad.org/stash/dataset/https://doi.org/10.5061/ dryad.8t8s248]。随后数据按照 Cao 等人的方法进行预处理 [18]。我们在 scRNA-seq 中获得了 30,370 个细胞在 MERFISH 中获得了 64,373 个细胞包含 153 个共同基因。人类PBMC配对多组学数据集单细胞配对组学数据集包括DNA可及性和基因表达来自公开数据集C57BL/6小鼠v1,150×150、Cell Ranger 3.1.0的单细胞免疫分析数据集×2019年并按照Cao等人[18]的方法进行预处理。我们获得了11,259个细胞涵盖2000个高变异的共同基因涵盖所有数据集。人类PBMC数据集soMoMatCITE-seq和ASAP-seq人类PBMC数据集可在Gene Expression Omnibus以登录编号GSE156478[31]获取过滤后的数据集可于 https://github.com/PeterZZQ/scMoMaT[27]获得。我们采用 Zhang 等人的方法预处理了数据集[27]并选取了两批这些细胞第一批5023 个细胞通过 CITE-seq 同时测量基因表达和蛋白质丰度batch23517 个细胞同时使用 ASAP-seq 测量蛋白质丰度和染色质可及性。人类 PBMC 数据集的整合三模态矩阵包含重叠的 4768 个基因、17,442 个区域和 216 个蛋白质。人类 PBMC 与 MALT CITE-seq 数据集人类 PBMC 数据集的 CITE-seq 来自 Gene Expression Omnibus GSE164378 [32]。随后我们根据 Lakkis 等人的方法选择了高度变异的基因HVGs。 [25]。对于基因我们使用扫描1.7.1来规范表达值[33]。最后PBMC数据集中我们获得了161,748个细胞包含1000个HVG和224个蛋白质。整合实验中使用了供体725,827个细胞和供体826,208个细胞的细胞。在交叉模态生成实验中供体620,651个细胞和供体7的细胞作为多模态数据集供体8的scRNA-seq数据作为单模态数据集。inclust概述InClust 基于用于转录组数据的 inClust [26]。InClust 是 inClust 的多模态版本输入掩模模块位于编码器前方输出模块位于编码器之后见图 1A。inclust的网络结构输入InClust 接收 5 个输入输入 1 是多模态数据输入 2 是协变量信息如批次或模态。输入 3 是标签信息为可选。输入4是用于过滤输入的输入掩码。输入5是用于过滤输出的输出遮罩。输入的掩码模块输入遮罩是一个与输入大小相当的矩阵每个元素中为0或1。输入与输入遮罩矩阵相乘以筛除所需元素编码器编码器是一个三层神经网络激活函数为非线性。潜采样层使用无激活函数的神经网络估计均值μz和标准差Σz。重新参数化技巧用于对潜变量Z1的抽样。嵌入层嵌入层将辅助信息输入2嵌入潜在空间作为实值向量。向量运算层向量算术在潜空间中进行。估计的平均值μz将基底或加嵌入向量E。得到的向量Z2在去除不需要的协变量或混合辅助信息后保留了真实的生物信息分类层实值向量Z2将通过以softmax为激活函数的神经网络。分类器的输出是output2。解码器解码器是一个三层神经网络激活函数为非线性。输出掩码模块输出掩膜是一个矩阵大小与输出相当每个元素为0或1。输出与输出掩码矩阵相乘以筛除所需元素。对比方法uniPort UniPort 来自 python 包 uniPort 的数据集成与补补比较 [18]。Harmony 来自 R 软件包的 Harmony 与数据集成比较 [34]。scVI ScVI 来自 scvi-tool 的数据集成比较 [35]。scMoMaT 来自 python 软件包 scMoMaT 的数据集成比较 [27]。sciPENN SciPENN 来自 Python 软件包 sciPENN 用于跨模态生成比较 [25]。