利用深度学习实现高灵敏度40%、高精度90%的从头肽测序的串联质谱分析方法

时间：2024-11-21

灵敏度超40%、精度达90%的从头肽测序，一种深度学习驱动的串联质谱分析方法

编辑 | 萝卜皮

与DNA和RNA不同，蛋白质的测序方法目前仍然相对不准确且不高通量，这限制了蛋白质组学在未知序列的应用中的实用性，如变异位点的识别、新表位的鉴定和宏蛋白质组学等。因此，发展更准确和高通量的蛋白质测序技术是当前研究的重点。

德国慕尼黑工业大学（Technische Universität München，TUM）的研究人员推出了 Spectralis，一种用于串联质谱分析的从头肽测序方法。Spectralis 利用了多项创新，包括连接按氨基酸质量间隔的光谱峰的卷积神经网络层、提出碎片离子系列分类作为从头肽测序的关键任务，以及肽谱置信度评分。

Spectralis的数据库搜索提供了真实光谱，并且其灵敏度超过了40%，精度高达90%，几乎是当前SOTA灵敏度的两倍。通过应用于未识别光谱，证实了Spectralis的优越性，并展示了其对于变异调用的适用性。

该研究以「Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing」为题，于 2024 年 1 月 2 日发布在《Nature Communications》。

灵敏度超40%、精度达90%的从头肽测序，一种深度学习驱动的串联质谱分析方法

液相色谱串联质谱法是高通量鉴定蛋白质的首选方法。在这种方法中，蛋白质首先被消化成肽，然后通过质谱仪进行分析。在分析过程中，第一步是使用质谱仪测量肽的质荷比（m/z）。接下来，选定的肽沿着主链键断裂，生成一系列肽片段。这些片段的m/z比可以在第二个质谱中识别。通过分析这些片段的m/z差异，可以重建肽的序列。这种方法的原理是通过读取相同离子系列的连续峰之间的m/z差异来确定肽的序列。因此，液相色谱串联质谱法是一种强大的工具，可用于高通量蛋白质鉴定。

在实践中，由于缺少峰、污染峰，并且峰的离子系列事先未知，使得这项任务变得非常困难。然而，通过将实验光谱与一组有限的可能肽（通常是通过计算机消化研究生物体的蛋白质组得到的）的预期光谱进行比较，可以极大地促进肽的鉴定。

这种策略需要预先计算可能的肽的数据库，称为数据库搜索。蛋白质组学研究通常依赖于数据库搜索，尽管该方法不能识别新的或意想不到的肽。这限制了蛋白质组学在未知肽序列应用中的有效性。这些应用包括新的表位鉴定、抗体测序、病原体监测、微生物群落研究和古生物学。因此，需要高效的从头肽测序算法，它可以直接从光谱中识别肽，而不依赖于数据库。

大多数从头肽测序算法都采用组合优化方法，其中搜索最适合光谱的肽。各种肽谱匹配（PSM）分数，即评估候选肽与给定谱的对应程度的分数，与包括动态编程和遗传算法在内的组合优化技术相结合，已被用来识别最适合的肽。然而，缺失峰和污染峰严重限制了这些算法的准确性。

与这项工作并行的是，科学家们利用深度学习在前向问题上取得了重大进展，即预测给定肽序列的光谱。虽然这些算法不能预测污染峰，但它们可以预测给定肽的峰强度和缺失峰。因此，可以利用他们的预测为 de novo 肽测序算法（如算法 pNovo3 中的算法）开发更具辨别力的 PSM 评分函数。

作为对这些基于组合优化的算法的补充，最近提出了直接预测光谱中肽序列的神经网络。这包括 DeepNovo、PointNovo 和 Casanovo。尽管如此，现有的从头肽测序方法的性能仍然有限，特别是在高精度范围内的灵敏度较差。需要进一步改进方法，以增加串联质谱实验中高度可信的肽序列鉴定的数量。

慕尼黑工业大学的研究团队推出了 Spectralis，一种结合了多种算法创新的方法，用于从头肽测序。Spectralis 以该领域的既定概念为基础，例如基于碎片模式的频谱图和 PSM 评分函数，并利用深度学习模型进行频谱预测 Prosit。

灵敏度超40%、精度达90%的从头肽测序，一种深度学习驱动的串联质谱分析方法

图：Spectralis 的 Bin 重新分类和概述。（来源：论文）

Spectralis 的核心由监督学习任务组成，该团队称之为 bin 重分类。该研究表明，预测的 bin 类别可以提高 PSM 的评分。使用 Levenshtein 距离估计作为 PSM 分数，研究人员证明了对现有从头肽测序方法预测的肽进行重新评分可以在 90% 的精度下将召回率提高近两倍。此外，该团队利用这些建模创新设计了一种进化算法，从而提高了整体召回率。

这里的分数不会提高整体召回率，因为它不会修改预测的肽。然而，在实践中，对于实现正确预测的肽和错误预测的肽之间更好分离是非常有利的。评分函数可以用作独立方法，排名的计算成本很小。它还允许使用单一程序对多种从头肽测序方法中预测的肽进行比较和整合。

引导突变在改善不正确的候选肽方面显示出有希望的结果。然而，利用引导突变的进化算法比单独重新评分产生了适度的改进。

尽管如此，研究人员发现它可以生成几个与正确肽的编辑距离非常小的看似合理的候选肽。考虑每个光谱的两个或多个高置信度预测对于识别大部分肽（但不是全部）感兴趣的应用可能很有用，例如在光谱不明确的情况下。然而，对于高精度用例，应优先将他们的分数应用于现有从头测序工具提出的候选肽。

灵敏度超40%、精度达90%的从头肽测序，一种深度学习驱动的串联质谱分析方法

图：引导突变性能。（来源：论文）

用于导出引导肽突变的图，让人想起广泛使用在实验光谱峰上定义的光谱图。与基于峰的谱图相比，该团队的图表示的一个限制是他们以 1 道尔顿分辨率进行操作。尽管 1 道尔顿大约相当于质子或中子的质量，但质谱仪允许以更高分辨率进行测量，这在原则上是可以利用的。

不过，1 道尔顿分辨率并不是该方法的概念限制。可以以更长的运行时间为代价获得更高的分辨率。基于 bin 的图而不是基于峰值的图的优点是，图的节点不依赖于实验峰值的存在，而仅取决于 bin 重新分类的输出。因此，这有利于生成连接由单个氨基酸质量间隔的节点的路径。还应该指出的是，Spectralis-score 以百万分之 20 的容差集成了 Prosit 预测，利用了更高分辨率的 m/z 比信息。

该团队还展示了一种罕见错义变异的证据，其最大等位基因频率小于 1%。因此，独立于基因组数据识别罕见变异的能力为光谱包含个人身份信息的想法提供了证据。随着从头肽测序的不断改进，研究人员越来越接近能够通过质谱法重新识别个体。因此，研究人员认为原始质谱蛋白质组数据必须通过数据访问门户共享，并采用与 NGS 测序数据类似的数据控制措施。

灵敏度超40%、精度达90%的从头肽测序，一种深度学习驱动的串联质谱分析方法

图：应用于未鉴定的光谱和变体调用。（来源：论文）

竞品 Casanovo 的新版本 Casanovo v3.2.0 是与 Spectralis 同时开发的。Casanovo v3.2.0 是 Casanovo v2.0.0 的大幅改进版本，是通过在由约 3000 万 PSM 组成的非常大的数据集上进行训练而获得的。

在 Casanovo v3.2.0 上训练的 Spectralis-score 的修订版得分仍然较低，但在九个物种中的六个物种上以 90% 的精确度显著提高了召回率。

未来的工作有必要进一步研究两种方法的互补性，例如，通过针对 Casanovo v3.2.0 的剩余错误训练 bin 重分类算法。

该研究的一个局限性是 Spectralis 迄今为止仅限于单一翻译后修饰，即蛋氨酸氧化。进一步的翻译后修改可以在未来的工作中通过扩展 AA 间隙卷积来解决。例如，模拟动物磷酸化只需要添加三种氨基酸的磷酸化质量。

另一个限制是该方法假设每个光谱有一个正确的肽。为此，研究人员将数据库搜索基本事实限制为每个光谱最多一个肽。然而，研究估计所有光谱中大约一半是嵌合的，即它们包含来自两个或多个具有相似质量和保留时间的前体离子的峰。

这进一步解释了 Spectralis 和其他早期从头肽测序工具的整体召回率有限，这些工具都假设每个谱图只有一个肽。对肽混合物进行建模需要不同的建模方案并建立合适的地面实况数据。

尽管存在这些限制，Spectralis 仍表现出强大的从头肽测序性能，尤其是在高精度范围内，使其可用于变异识别。因此，它可以使蛋白质组学更适合从病原体监测到免疫肽组学和宏蛋白质组学等应用。

论文链接：https://www.nature.com/articles/s41467-023-44323-7

利用深度学习实现高灵敏度40%、高精度90%的从头肽测序的串联质谱分析方法

同类商品

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

CorelDRAW X8 简体中文【标准版 + Win】

相关文章