发布于2024-11-05 阅读(0)
扫一扫,手机访问
编辑 | 萝卜皮
拷贝数变异(CNV)与多种遗传性疾病的发生有密切关系。为了准确检测CNV,临床上一直在努力研究利用全外显子组测序(WES)数据的方法。尽管最近的算法性能有所提高,但准确检测CNV仍然是一个挑战,因为大多数算法的精度较低,专家策划的黄金标准调用集的召回率甚至更低。
牛津大学(Oxford University)、瑞士洛桑联邦理工学院(EPFL)以及土耳其毕尔肯大学(Bilkent University)近日联合发布了一个名为ECOLE的基于深度学习的WES数据体细胞和种系CNV调用程序。ECOLE的开发旨在提供一种高效准确的方法,用于从WES数据中检测体细胞和种系CNV。这一研究成果有望为基因组学研究和临床应用领域带来重要的突破。
基于Transformer架构的变体,该模型利用高置信度调用对匹配的WGS样本进行学习,以预测每个外显子的CNV。
研究人员利用迁移学习将一小组专家调用,对模型进行进一步训练和微调。ECOLE 首次在人类专家标记数据上取得了优异的表现,准确率达到68.7%,召回率达到49.6%。
与排名第二的最佳方法相比,我们的解决方案在准确率和召回率方面分别提高了18.7%和30.8%。通过使用相同的微调策略,我们的模型ECOLE能够在膀胱癌样本中检测到经过RT-qPCR验证的变异,无需对照样本。
在《Nature Communications》于2024年1月2日发布的一项研究中,名为「ECOLE: Learning to call copy number variants on whole exome sequencing data」的研究成果受到了广泛关注。该研究集中探讨了如何利用全外显子测序数据来准确识别基因拷贝数变异。这项研究的结果对于深入了解基因变异与疾病之间的关联具有重要意义,并为相关领域的研究提供了有价值的参考。
拷贝数变异 (CNV) 是被广泛认识为导致癌症、精神分裂症和自闭症等多种疾病的重要危险因素。在过去十年里,高通量测序 (HTS) 技术一直是检测CNV的标准方法。各种基于全基因组测序 (WGS) 数据的CNV检测算法已经取得了显著的成功,其灵敏度和精确度分别高达96%和97%。
这与处理整个外显子组测序 (WES) 数据的算法形成鲜明对比,后者的精度非常低。WGS 是一个更适合这项任务的平台,因为它不使用引入长度、GC 和参考偏差的靶向探针。另一方面,WES 在临床上更具吸引力,因为它比 WGS 更紧凑、可解释且价格实惠。不幸的是,由于这些限制,WES 技术在 CNV 检测方面的临床应用受到限制。
牛津大学、瑞士洛桑联邦理工学院以及土耳其毕尔肯大学的研究人员,前期开发了一种基于深度学习的抛光方法(deep-learning-based polishing approach),该方法可以使用对匹配的 WGS 样本进行的更值得信赖的调用,来纠正许多最先进的基于 WES 的种系 CNV 调用者的调用。虽然这是向前迈出的重要一步,但在临床使用方面仍然存在瓶颈。
第一个问题是结果的敏感性。抛光器(polisher)只能处理基本算法返回的调用(例如删除)。它要么改变这些调用(例如,重复),要么中和它们(例如,不调用)。虽然这有助于降低错误发现率,但它对灵敏度的影响有限,因为抛光器无法进行新的调用(例如,将无调用转换为删除/重复)。不幸的是,由于性能非常低,灵敏度大多超出了基于 WES 的 CNV 调用域的范围。
第二个问题是,即使是经过优化后的精度性能也受到专家策划的 CNV 调用集的限制,这些调用集被视为黄金地面事实(高达 35%)。这是因为抛光器使用基于 WGS 的自动化 CNV 调用作为模型训练的标签,但这些标签(调用)与人类专家决策相比具有非常不同的分布。
不幸的是,这种手动策划的调用集尺寸非常小,这阻碍了机器学习模型的训练。因此,在人类专家策划的 CNV 调用集上实现高性能的调用者将使基于 WES 的种系 CNV 检测在临床中得到广泛使用。
图示:ECOLE 的系统概述。(来源:论文)
因此,该团队又提出了第一个基于深度学习的方法(ECOLE: Exome-based COpy number variation calling LEarner),该方法可以独立学习对 WES 数据执行体细胞和种系 CNV 调用。该模型基于 Transformer 模型的变体,这是自然语言处理领域处理序列数据的最先进方法。
ECOLE 可以处理每个外显子的读取深度信号。它了解需要关注信号的哪些部分以及在哪个上下文(即染色体)中调用 CNV。它使用在匹配的 WGS 样本上获得的高置信度调用(即标签)作为半真实值。
ECOLE 在自动 WGS 调用的基准上显着提高了外显子精确度以及第二最佳方法性能的召回率(分别提高了 13.5% 和 16.6%)。这是唯一具有平衡精度和召回率的方法。
此外,该团队还首次提出使用转移学习并使用少量人类专家标记的样本来微调模型参数。研究人员表明,这种方法在预测人类标签方面的精度和召回率分别提高了约 18% 和约 30%。
同样,他们使用微调方法使 ECOLE 能够使用膀胱癌样本来调用体细胞变异。研究人员证明,他们能够在 16 个膀胱癌样本中的 13 个样本中检测到经过 PCR 验证的拷贝数畸变,而最先进的方法即使在抛光后也只能检测到 2 个样本中经过验证的拷贝数畸变。
该方法具有作为种系和体细胞 CNV 调用者的能力,并通过微调轻松适应疾病和人类专家;研究人员建议 ECOLE 作为扩大外显子组测序技术在 CNV 检测临床应用的可行选择。
ECOLE:https://github.com/ciceklab/ECOLE
论文链接:https://www.nature.com/articles/s41467-023-44116-y
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店