发布于2024-12-12 阅读(0)
扫一扫,手机访问
编辑 | 萝卜皮
目前最先进的蛋白质设计方法通常使用大型神经网络,这些网络可能包含数百万个参数。然而,我们仍不清楚哪些残基依赖关系对于确定蛋白质功能至关重要。
加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员指出,单个残基的氨基酸偏好在解释8个数据集中的大部分甚至几乎所有组合突变效应方面具有重要作用,其解释能力高达78-98%。因此,很少有观察结果(约为突变残基数量的100倍)能够准确预测「保留的变异效应(held-out variant effects)」,相关性达到Pearson r > 0.80。
团队认为残基周围的局部结构背景对于预测突变偏好至关重要,并因此研发了一种无监督方法,名为CoVES(Combinatorial Variant Effects from Structure)。这一方法利用基于结构的突变偏好来指导蛋白质设计。
实验证实,CoVES不仅胜过无模型方法,还优于用于创造功能性和多样化蛋白质变种的复杂模型。CoVES为辨认功能性蛋白质变异的复杂模型提供了一种有效的替代途径。
该研究以「Protein design using structure-based residue preferences」为题,于 2024 年 2 月 22 日发布在《Nature Communications》。
分子进化和蛋白质工程中的一个重要问题是如何组合多个突变对功能和未来突变轨迹的影响。在给定蛋白质上,可能存在有限的突变轨迹,其中单个突变可能需要在存在另一个补充突变的情况下才能被容忍。因此,理解这些突变之间的相互作用对于设计具有特定功能的蛋白质至关重要。
从概念上讲,突变之间的这种特定依赖性产生了「崎岖」的适应度景观,其中对适应度增加突变的自然或实验选择,并不一定会产生最佳功能的蛋白质。另一方面,如果多个突变组合在一起而彼此之间没有特定的依赖关系,则序列适应度函数将产生一个简单的单调函数,选择可以更有效地发挥作用。同样,了解这种特定的依赖性对于确定突变组合,从而设计具有所需功能的蛋白质疗法至关重要。
蛋白质功能建模的新成果,主要集中在提高模型适应更复杂适应性景观的能力上,但生物蛋白质适应性景观的复杂性尚不明确。特定依赖性的数量随相互作用顺序增加。例如,氨基酸长度为 100的蛋白质有 2000 个一阶位点项,约 100 万个二阶项和约 2 亿个三阶项。
训练这类任务模型需要大量数据、昂贵的计算资源,超参数调整和大量训练时间;并且,过度参数化的模型,容易过度拟合和产生误报。对于大多数蛋白质,准确预测组合蛋白质变异效应需要哪些依赖关系尚不清楚。生物适应度景观的复杂性将决定任何模型近似适应度函数的能力。
CoVES:一种无监督方法
为了确定上位性在蛋白质适应性景观中的重要性,加州大学、麻省理工学院以及哈佛医学院的联合研究团队检查了 6 种蛋白质的组合变异效应(使用 8 个单独收集的数据集)。
研究人员发现,测量到的这些蛋白质的组合变异效应,可以通过仅考虑 20*N 残基突变偏好的函数得到很好的解释 (R^2~0.78–0.98),其中 N 表示突变位置的数量,通过全局非线性传递,不考虑突变之间的特定依赖性。
研究表明,少量的观察(对残基突变偏好参数的数量进行 5 倍过采样,并且在一个数据集中,观测值少至 100-200 个)足以对保留的组合变异效应实现高预测精度(Pearson r > 0.8),优于任何预测变异效应的无监督方法。
图示:仅使用结构信息设计蛋白质序列,并使用根据实验观察训练的替代适应度函数评估设计的序列。(来源:论文)
据此,该团队设计了一种无监督策略,称为 CoVES(Combinatorial Variant Effects from Structure)。CoVES 通过使用等变图神经模型(将残基周围的结构背景作为输入)来推断所需的残基突变偏好,从而设计功能多样的蛋白质变体,而无需进行实验变体效应测量。
具体来说,只需使用 CoVES 独立地考虑残基微环境,就可以有效地设计出功能丰富且多样的变异体,这种方法在使用替代适应度函数评估蛋白质设计时,其表现与最先进的高容量神经方法相当。
虽然这种突变偏好模型并未显式地捕获突变残基之间的依赖性,但这并不排除存在更高阶的上位性。
首先,每个残基的突变偏好本质上捕获了对邻近残基的隐含依赖性;实际上,研究人员观察到在接触残基处的突变可以改变给定残基的突变偏好。
其次,虽然 78-98% 的观察到的组合变异效应可以仅由突变偏好解释,但在某些数据集中,剩余的变异可能会由残基之间的真正的生物特异性依赖性解释。
观察结果表明,紧密的结构环境是变异效应预测和设计的主要决定因素。CoVES 与可以学习任意突变依赖性的自回归方法的性能相似,这表明局部结构环境可以捕获大部分预测效应。此外,研究人员还发现,在监督的全局上位性模型中,接触残基处的突变可以改变位点偏好。
结语
总的来说,该团队提供了一个新的视角来理解和设计蛋白质的变异效应,这对于未来的蛋白质工程和药物设计具有重要的启示意义。研究结果表明,通过考虑每个残基的突变偏好,可以有效地设计出功能丰富且多样的蛋白质变异体,这为蛋白质设计提供了一种新的可能性。这无疑将为蛋白质设计领域带来新的启示和挑战,值得我们进一步探索和研究。
论文链接:https://www.nature.com/articles/s41467-024-45621-4
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店