发布于2024-11-30 阅读(0)
扫一扫,手机访问
编辑 | 红菜苔
随着单细胞技术的进步,我们能够测量许多细胞的特性。同时,多组学分析技术使我们能够同时测量单个细胞中的多个特征。为了有效处理这些庞大的数据,我们需要开发多模态数据集成的计算方法。
树兰医院、中国科学院和北京师范大学的合作团队提出了inClust+,一个用于多组学分析的深度生成框架。它基于之前的inClust框架,针对转录组数据进行了改进,并添加了两个专为多模式数据处理设计的掩码模块:输入掩码模块和输出掩码模块,分别位于编码器前和解码器后。这些掩码模块的引入使得inClust+能够更好地处理多模式数据,并提高多组学分析的准确性和效率。
InClust+ 是一个用于整合相似细胞群的 scRNA-seq 和 MERFISH 数据的工具。它通过使用 scRNA-seq 数据来估算 MERFISH 数据,从而提供了一种综合分析多模态数据的方法。除了基因表达数据外,InClust+ 还能整合染色质可及性和蛋白质丰度等三种模态的数据,并且能够处理批次效应的影响。通过使用 InClust+,研究人员可以更全面地理解细胞的多方面特征,并获得更准确的细胞类型分类和功能注释。
研究人员利用inClust+整合了一个未标记的单模态scRNA-seq数据集和两个标记的多模态CITE-seq数据集。通过这种整合,他们成功将CITE-seq数据集中的标签转移到了scRNA-seq数据集中,并且成功生成了单模态scRNA-seq数据中缺失的蛋白质丰度模态。这项研究为单模态转多模态数据整合提供了一种有效的方法,并且为进一步研究细胞的多模态特征提供了重要的工具。
该研究以「InClust+: the deep generative framework with mask modules for multimodal data integration, imputation, and cross-modal generation」为题,于 2024 年 1 月 24 日发布在《BMC Bioinformatics》。
近年来,单细胞技术的进步使得在单个细胞中获得多种性状成为可能,例如单细胞 RNA 测序 (scRNA-seq)、转座酶可及染色质测序的单细胞测定 (scATAC-seq) 和单细胞亚硫酸氢盐测序 (scBS-seq)。
这些单细胞方法极大地促进了科学家对细胞的理解,揭示了细胞群的异质性、细胞发育轨迹以及基因调控网络。然而,单一数据采集方式仅能展示细胞状态的有限侧面。为了获取更全面、深入的信息,需要整合来自不同模态的数据,以更好地揭示数据的生物学意义。
为了完成这些任务,树兰医院、中国科学院和北京师范大学的合作团队在之前的研究中,曾提出了 inClust(集成聚类),一种灵活的转录组数据深度生成框架。在这里,该团队通过添加两个新模块来扩展 inClust,即编码器前面的输入掩码模块和解码器后面的输出掩码模块。
该团队将增强的 inClust 命名为 inClust+,并证明它不仅可以完成数据集成,还可以利用掩模模块的优点完成基因插补。
研究人员将 inClust+ 应用于各种数据集,包括多个单模态(未配对)数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中,inClust+展示了其数据集成、插补和数据生成的能力。
首先,通过 mask 模块的优点,参考类似细胞群的 scRNA-seq 数据,使用 inClust+ 对 MERFISH 数据进行插补。
然后,通过三个示例评估了具有堆叠式编码器-解码器架构和掩模模块的 inClust+ 的多模态集成能力。结果表明,inClust+ 不仅可以混合模态之间的数据,还可以分离生物学差异并消除批次效应。
最后,研究人员使用 inClust+ 将数据与单模态数据集和多模态数据集进行集成。结果表明,inClust+ 可以将标签从多模态数据转移到单模态数据,并补全单模态数据中缺失的模态。
图示:inClust+ 整合多模态(三重)数据集的图表。(来源:论文)
InClust+ 的应用并不限于上述情况。对于基因插补,会出现一种情况,即所有数据集都有自己的特定基因,而不是只有一个数据集有自己独特的基因。通过调整输出掩码,inClust+ 可以基于共享基因整合两个数据集,并通过引用相应数据集中的特定基因来估算两个数据集中的其余基因。对于缺失模态生成,会出现所有数据集都有自己特定模态的情况,inClust+ 可以基于共享模态整合两个数据集,并通过引用相应数据集中的特定模态来生成每个数据集中的缺失模态。
由于inClust+ 是 inClust 在多模态应用中的扩展,因此与其他集成方法相比,inClust+ 和 inClust 可以作为一个整体放在一起。该团队的模型(inClust 和 inClust +)与其他集成方法的区别在于其适应不同情况的灵活性以及尽可能集成信息的能力。
灵活性体现在以下两点:首先,InClust 可以灵活地处理标签信息;InClust+也继承了这一优点,并体现在 inClust+ 可以半监督模式将标签从参考数据集转移到查询数据集。其次,inClust+ 中的两个 mask 模块可以灵活调整以处理不同的输入。
模型尽可能整合信息的能力体现在以下两点:首先,在inClust中证明该模型不仅可以使用表达数据,还可以使用协变信息(例如批次)和标签信息;这一优点也被 inClust+ 继承了。其次,如 inClust+ 所示,该模型不仅可以利用共享数据(共享基因表达或共享模态)进行整合,还可以利用特定基因或模态来进行缺失基因插补或缺失模态生成。
简而言之,该团队的模型不仅可以集成数据,还可以在数据集成的基础上完成其他下游任务(例如分布外生成、标签转移和新型识别、空间域分割、跨模态插补和生成)。
添加掩模是增强深度学习模型的常见方法。在 inClust+ 中,研究人员通过一对掩码模块(输入掩码模块和输出掩码模块)来增强模型。掩模的灵活设计和使用使模型能够完成一系列任务,这些任务通常需要多个模型分别完成。例如,inClust+ 可以利用常见的和数据集特定的基因进行整合和插补,如 uniPort。掩码使事情变得简单:输入掩码筛选出常见基因,输出掩码筛选出相应数据的常见基因和数据集特定基因。
同时,inClust+ 可以集成多模态数据集来实现多域翻译,作为跨模态自动编码器。输入掩码和输出掩码使inClust+ 成为多个独立且相关的编码器-解码器组合。因此,inClust+ 不仅可以对同一模态的数据进行压缩和重构,还可以将一种模态的数据压缩并重构为另一种模态,从而实现跨模态翻译。
此外,inClust+ 可以集成多模态数据集和单模态数据集,将标签从多模态数据转移到单模态数据,并通过数据生成将单模态数据完整地转换为多模态数据,如 sciPENN。InClust+ 指的是多模态数据集,用于生成单模态数据集中缺失模态的数据。一般来说,作为一种模型增强技术,在模型中添加一对掩模不仅限于 inClust,还可以扩展到具有类似编码器-解码器结构的深度学习模型,例如 scArches。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05656-2
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店