中科院&树兰医院&北师大团队开发基于掩码模块的深度生成框架，用于多模态数据集成、插补和跨模态生成

　　发布于2024-11-30　阅读（0）

扫一扫，手机访问

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔

随着单细胞技术的进步，我们能够测量许多细胞的特性。同时，多组学分析技术使我们能够同时测量单个细胞中的多个特征。为了有效处理这些庞大的数据，我们需要开发多模态数据集成的计算方法。

树兰医院、中国科学院和北京师范大学的合作团队提出了inClust+，一个用于多组学分析的深度生成框架。它基于之前的inClust框架，针对转录组数据进行了改进，并添加了两个专为多模式数据处理设计的掩码模块：输入掩码模块和输出掩码模块，分别位于编码器前和解码器后。这些掩码模块的引入使得inClust+能够更好地处理多模式数据，并提高多组学分析的准确性和效率。

InClust+ 是一个用于整合相似细胞群的 scRNA-seq 和 MERFISH 数据的工具。它通过使用 scRNA-seq 数据来估算 MERFISH 数据，从而提供了一种综合分析多模态数据的方法。除了基因表达数据外，InClust+ 还能整合染色质可及性和蛋白质丰度等三种模态的数据，并且能够处理批次效应的影响。通过使用 InClust+，研究人员可以更全面地理解细胞的多方面特征，并获得更准确的细胞类型分类和功能注释。

研究人员利用inClust+整合了一个未标记的单模态scRNA-seq数据集和两个标记的多模态CITE-seq数据集。通过这种整合，他们成功将CITE-seq数据集中的标签转移到了scRNA-seq数据集中，并且成功生成了单模态scRNA-seq数据中缺失的蛋白质丰度模态。这项研究为单模态转多模态数据整合提供了一种有效的方法，并且为进一步研究细胞的多模态特征提供了重要的工具。

该研究以「InClust+: the deep generative framework with mask modules for multimodal data integration, imputation, and cross-modal generation」为题，于 2024 年 1 月 24 日发布在《BMC Bioinformatics》。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

近年来，单细胞技术的进步使得在单个细胞中获得多种性状成为可能，例如单细胞 RNA 测序 (scRNA-seq)、转座酶可及染色质测序的单细胞测定 (scATAC-seq) 和单细胞亚硫酸氢盐测序 (scBS-seq)。

这些单细胞方法极大地促进了科学家对细胞的理解，揭示了细胞群的异质性、细胞发育轨迹以及基因调控网络。然而，单一数据采集方式仅能展示细胞状态的有限侧面。为了获取更全面、深入的信息，需要整合来自不同模态的数据，以更好地揭示数据的生物学意义。

为了完成这些任务，树兰医院、中国科学院和北京师范大学的合作团队在之前的研究中，曾提出了 inClust（集成聚类），一种灵活的转录组数据深度生成框架。在这里，该团队通过添加两个新模块来扩展 inClust，即编码器前面的输入掩码模块和解码器后面的输出掩码模块。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+的架构及其应用。（来源：论文）

该团队将增强的 inClust 命名为 inClust+，并证明它不仅可以完成数据集成，还可以利用掩模模块的优点完成基因插补。

研究人员将 inClust+ 应用于各种数据集，包括多个单模态（未配对）数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中，inClust+展示了其数据集成、插补和数据生成的能力。

首先，通过 mask 模块的优点，参考类似细胞群的 scRNA-seq 数据，使用 inClust+ 对 MERFISH 数据进行插补。

然后，通过三个示例评估了具有堆叠式编码器-解码器架构和掩模模块的 inClust+ 的多模态集成能力。结果表明，inClust+ 不仅可以混合模态之间的数据，还可以分离生物学差异并消除批次效应。

最后，研究人员使用 inClust+ 将数据与单模态数据集和多模态数据集进行集成。结果表明，inClust+ 可以将标签从多模态数据转移到单模态数据，并补全单模态数据中缺失的模态。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+ 整合多模态（三重）数据集的图表。（来源：论文）

InClust+ 的应用并不限于上述情况。对于基因插补，会出现一种情况，即所有数据集都有自己的特定基因，而不是只有一个数据集有自己独特的基因。通过调整输出掩码，inClust+ 可以基于共享基因整合两个数据集，并通过引用相应数据集中的特定基因来估算两个数据集中的其余基因。对于缺失模态生成，会出现所有数据集都有自己特定模态的情况，inClust+ 可以基于共享模态整合两个数据集，并通过引用相应数据集中的特定模态来生成每个数据集中的缺失模态。

由于inClust+ 是 inClust 在多模态应用中的扩展，因此与其他集成方法相比，inClust+ 和 inClust 可以作为一个整体放在一起。该团队的模型（inClust 和 inClust +）与其他集成方法的区别在于其适应不同情况的灵活性以及尽可能集成信息的能力。

灵活性体现在以下两点：首先，InClust 可以灵活地处理标签信息；InClust+也继承了这一优点，并体现在 inClust+ 可以半监督模式将标签从参考数据集转移到查询数据集。其次，inClust+ 中的两个 mask 模块可以灵活调整以处理不同的输入。

模型尽可能整合信息的能力体现在以下两点：首先，在inClust中证明该模型不仅可以使用表达数据，还可以使用协变信息（例如批次）和标签信息；这一优点也被 inClust+ 继承了。其次，如 inClust+ 所示，该模型不仅可以利用共享数据（共享基因表达或共享模态）进行整合，还可以利用特定基因或模态来进行缺失基因插补或缺失模态生成。

简而言之，该团队的模型不仅可以集成数据，还可以在数据集成的基础上完成其他下游任务（例如分布外生成、标签转移和新型识别、空间域分割、跨模态插补和生成）。

添加掩模是增强深度学习模型的常见方法。在 inClust+ 中，研究人员通过一对掩码模块（输入掩码模块和输出掩码模块）来增强模型。掩模的灵活设计和使用使模型能够完成一系列任务，这些任务通常需要多个模型分别完成。例如，inClust+ 可以利用常见的和数据集特定的基因进行整合和插补，如 uniPort。掩码使事情变得简单：输入掩码筛选出常见基因，输出掩码筛选出相应数据的常见基因和数据集特定基因。

同时，inClust+ 可以集成多模态数据集来实现多域翻译，作为跨模态自动编码器。输入掩码和输出掩码使inClust+ 成为多个独立且相关的编码器-解码器组合。因此，inClust+ 不仅可以对同一模态的数据进行压缩和重构，还可以将一种模态的数据压缩并重构为另一种模态，从而实现跨模态翻译。

此外，inClust+ 可以集成多模态数据集和单模态数据集，将标签从多模态数据转移到单模态数据，并通过数据生成将单模态数据完整地转换为多模态数据，如 sciPENN。InClust+ 指的是多模态数据集，用于生成单模态数据集中缺失模态的数据。一般来说，作为一种模型增强技术，在模型中添加一对掩模不仅限于 inClust，还可以扩展到具有类似编码器-解码器结构的深度学习模型，例如 scArches。

论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05656-2

本文转载于：https://www.jiqizhixin.com/articles/2024-02-05-12 如有侵犯，请联系admin@zhengruan.com删除

上一篇：自助安装笔记本内存条

下一篇：工信部：2023 年新增 97 个城市达到千兆城市标准

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

用户对iOS 17的装机率低于预期，升级意愿不高

2月6日消息，近日，苹果开发者网站公布了iOS17系统的最新装机数据，引起了市场的广泛关注。根据最新的报告显示，截至目前，iOS17系统的普及率已经达到76%。然而，仍有20%的机型仍在坚持运行着过时的iOS16系统，而另外4%的机型甚至还在使用更早的系统版本。与去年同期相比，这一数据表现略显逊色。去年的数据显示，在相同的时间段内，iOS16的安装率高达81%，这显示出iOS17并未像苹果预期的那样受到用户的热烈欢迎。根据小编的了解，最新公布的数据还揭示了一个有趣的现象：在所有活跃的iOS设备中，有66%

13分钟前苹果 0
正版软件

微软力劝Windows 10用户：保持原有或升级操作系统？

根据最新报道，微软似乎已经开始加大力度催促坚守Windows10阵地的用户进行升级。一些用户最近反映称，在他们使用Windows10时遭遇到了一个长达四页的弹出广告，广告内容主要是推销Windows11的优点，并力劝用户尽快进行升级。这一举动引起了用户的不满和抱怨。微软在最新的广告中提出了多个升级Windows11的理由。首先，微软强调升级是免费的，并且在安装新系统的过程中，用户可以继续正常使用电脑，而且新系统不会占用过多的存储空间。其次，微软承诺从Windows10升级到Windows11会非常顺畅，用

23分钟前微软 0
正版软件

上海迈向全球双万兆城市：2026年初步建成5G-A与万兆光网标志性网络

根据上海市政府发布的2023年规划文件，上海市有着雄心勃勃的目标，即到2026年底初步建设成为全球双万兆城市。这一目标的实现将依托于两项标志性技术，分别是5G-A和万兆光网。这一规划将为上海市的发展带来巨大的机遇和挑战。5G-A，亦被称为5.5G，是一种新型的移动通信技术，其最显著的特点是能够实现每秒5Gb的传输速度。与现有的5G技术相比，5G-A的网络速率提升了5至10倍，网络容量也增加了三倍。这一技术的推广和应用，标志着上海在通信领域取得了重大进展。这将极大地促进信息传输的效率和速度，加速数字化时代的

38分钟前华为 0
正版软件

最新曝光：iOS 17.3.1内部测试揭晓，瞩目iOS 17.4功能更新

据最新消息，苹果公司正在进行一项内部测试，测试对象是其iPhone设备的iOS17.3.1系统更新。根据Macrumors网站的分析日志披露，该网站此前已成功捕捉到了苹果官方发布前的新iOS版本信息，包括从iOS17.0.3到iOS17.2.1的各个版本。尽管目前还没有得到官方确认，但业界普遍认为iOS17.3.1的发布即将到来。这一消息引起了广泛关注，人们对新版本的功能和改进表示了极大的期待。苹果一直以来都致力于提升用户体验，所以我们可以期待iOS17.3.1会带来更多的创新和优化，让用户的使用体验更加

53分钟前苹果 0
正版软件

用 PyTorch 从基础开始构建完整的 NeRF

本文经自动驾驶之心公众号授权转载，转载请联系出处。在解释代码之前，先回顾一下NeRF（神经辐射场）的原理和含义。根据NeRF论文，NeRF算法流程如下：“我们提出了一个当前最优的方法，应用于复杂场景下合成新视图的任务，具体的实现原理是使用一个稀疏的输入视图集合，然后不断优化底层的连续体素场景函数。我们的算法，使用一个全连接（非卷积）的深度网络，表示一个场景，这个深度网络的输入是一个单独的5D坐标（空间位置(x,y,z)和视图方向(xita,sigma)），其对应的输出则是体素密度和视图关联的辐射向量。我们

1小时前 05:50 代码框架 0

中科院&树兰医院&北师大团队开发基于掩码模块的深度生成框架，用于多模态数据集成、插补和跨模态生成

产品推荐

最新发布

相关推荐

热门关注