商城首页欢迎来到中国正版软件门户

您的位置:首页 > 业界资讯 >精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

  发布于2024-12-31 阅读(0)

扫一扫,手机访问

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

编辑 | 萝卜皮

随着对蛋白质相分离(PS)的研究不断深入,生物信息学工具的发展也取得了显著进展,这些工具被广泛应用于预测相分离蛋白质(PSP)。然而,这些工具往往更偏向于具有大量本质无序区域(IDR)的PSP,从而导致对没有IDR的潜在PSP的低估。此外,PS的特性不仅受IDR的控制,还受结构化模块的结构域以及其他不直接反映在氨基酸序列中的相互作用的影响。因此,在预测PSP时,需要综合考虑这些因素,以获得更准确的结果。PS的研究对于揭示蛋白质结构和功能的复杂性至关重要,为我们深入了解蛋白质相互作用提供了重要的理论基础。通过结合实验数据和生物信息学工具的应用,我们可以更全面地

同济大学和中国科学院的研究团队最新研发了一种名为PSPIre的机器学习预测器。该预测器结合了残基级和结构级特征,能够精准地预测蛋白质的PSP。

与目前的 PSP 预测因子相比,PSPire 在识别不含 IDR 的 PSP 方面取得了明显的进展。这表明非 IDR、基于结构的特征在 PS 过程中的多价相互作用中扮演着关键角色。生物验证实验证明,PSPire 预测的 11 个候选 PSP 中,有 9 个能在细胞内形成凝聚体。

该研究以「Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions」为题,于 2024 年 3 月 8 日发布在《Nature Communications》。

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

细胞内复杂的生化反应受到精细的调控,一直是科学研究的一个重要课题。膜结合的细胞器被磷脂双层所包裹,这种物理障碍隔离了内外环境,为维持稳定的反应环境提供了保障。

然而,无膜细胞器(MLO),如核仁和应激颗粒,能够在细胞中特定位置浓缩蛋白质和核酸,而不与膜结合。这些MLO的形成、组成控制和功能调节一直是一个多年来难以解决的难题。对于科学家来说,理解这些MLO的运作机制至关重要,因为它们在细胞内发挥着重要的功能。通过研究这些无膜细胞器,可以更深入地了解细胞内的复杂调

2009 年,一项研究发现,秀丽隐杆线虫生殖细胞中的 P 颗粒可以形成液体状液滴,表明相分离 (PS) 可能是这些生物分子凝聚物形成的基础。随后的研究表明 PS 参与各种基本生物过程,如跨膜信号传导、DNA 修复、转录和 RNA 加工。生物分子凝聚体的异常形成或破坏可能导致神经退行性疾病、癌症和传染病。

相分离蛋白 (PSP) 的一个关键特征是它们能够形成多种弱的、瞬时的、非共价相互作用。相当多的 PSP 可以通过本质无序区域(IDR)之间的相互作用形成生物分子凝聚体,这些区域具有高度灵活的构象并呈现多种弱相互作用的元素。

在这里,研究人员将 PSP 分为两类:包含 IDR 的 (ID-PSP) 和不包含 IDR 的 (noID-PSP)。IDR 是根据 AlphaFold 预测的蛋白质结构的 pLDDT 分数确定的。

预测 PSP 的计算方法的发展对于促进整个蛋白质组的快速计算机筛选至关重要。但是,当前的 PSP 预测器严重偏向于预测 ID-PSP,导致预测 noID-PSP 的性能不佳。这种偏见凸显了在没有 IDR 的情况下准确识别 PSP 的普遍挑战。

由于 noID-PSP 的结构可以深入了解其功能背后的多价相互作用,研究人员假设整合蛋白质结构信息可以显著增强 noID-PSP 的预测。目前的 PSP 预测因子仅依赖于氨基酸序列,而不利用蛋白质结构信息,这可能是由于高质量蛋白质结构的可用性有限。

在最新的工作中,利用完整人类蛋白质组中蛋白质的高精度原子坐标的可用性,同济大学和中国科学院的研究团队训练了 XGBoost 分类器 PSPire,通过结合残基水平和结构水平特征来预测 PSP。

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

图示:PSPire 的工作流程。(来源:论文)

该团队采用当前两个最好的预测器 PSAP 和 PhaSePred 用于预测 PSP 的 PS 相关特征,并分别计算 IDR 和非 IDR 上的这些特征。使用各种数据集的评估表明,该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

图示:PSPire 与当前 PSP 预测器的性能基准测试。(来源:论文)

与目前主要依赖氨基酸特征的预测器不同,PSPire 集成了 3D 结构信息,在识别 noID-PSP 方面表现出卓越的性能。因此,PSPire 有效地识别了 PSP 候选者,并有助于研究人员了解这些蛋白质及其在冷凝物形成中的作用。

驱动相分离的多价相互作用不仅涉及 IDR 驱动的非特异性相互作用,还广泛涉及模块化域介导的特异性相互作用。然而,大多数现有的 PSP 预测因子对 IDR 含量高的蛋白质表现出明显的偏见,导致在预测 noID-PSP 时表现不佳。

为了解决这个问题,研究人员在 SSUP 的基础上引入了非 IDR 特性来补充 IDR 相关的特性。分析表明,这些 SSUP 相关特征有效地区分 PSP 和非 PSP,表明 SSUP 残基与结构域驱动蛋白的 PS 过程固有的多价性之间存在很强的相关性。

此外,该团队还计算了与贴纸相关的特征,可以有效区分 PSP 和非 PSP。因此,SSUP 残基,特别是那些构成贴纸的残基,提供了突变可能影响 PS 行为的位点,这对于进一步的实验验证很有价值,并且有可能帮助识别与 PS 相关的药物靶点。

精确预测相分离蛋白质,同济&中国科学院机器学习预测器PSPire

图示:PSPIre 预测的候选 PSP 在 HeLa 细胞和体外会发生相分离。(来源:论文)

除了生物实验之外,还可以利用分子动力学进一步探索 SSUP 中的关键残基,从而揭示驱动 PS 的潜在机制。利用这些重要特征,PSPire 报告了 SSUP 的残基位置,并将贴纸识别为输出。

该理论框架被称为「贴纸和间隔物模型(the stickers-and-spacers model)」,描述了各种相分离系统背后的分子语法。这些系统可以分为三种不同的类型:折叠蛋白质、本质无序蛋白质和线性多价蛋白质。

对于折叠蛋白质,贴纸被定义为蛋白质表面上的相互作用斑块,而间隔物由不参与相互作用的区域组成。在本质上无序的蛋白质中,贴纸可能包括单个氨基酸、短线性基序或两者的组合,其间散布有间隔基,间隔基是插入的非相互作用残基。

对于线性多价蛋白,贴纸包含多个折叠结构域,间隔物是连接这些结构域的柔性接头。对于明确的结合域,贴纸被表征为域表面上的结合位点,非结合表面残基充当额外的间隔物。从另一个角度来看,与贴纸、IDR 和 SSUP 相关的计算特征旨在准确捕捉这三种贴纸的不同属性。

关于贴纸相关的功能,PSPire 重点关注静电相互作用,而不是疏水相互作用,并考虑以下因素。静电相互作用的强度(范围为 2 至 15 kcal/mol)通常大于疏水相互作用的强度(范围为 0.5 至 3 kcal/mol)。

此外,ID-PSP 和 noID-PSP 中 SSUP 中疏水残基的比例显著低于非 PSP,而 ID-PSP 和 noID-PSP 中 SSUP 中带电残基的比例显著高于非 PSP。对于结构域驱动的相分离,静电相互作用可能比疏水相互作用更普遍。研究人员尝试通过加入疏水残基来修改贴纸识别方法。然而,疏水残基的掺入并没有提高 PSPIre 的预测能力。

论文链接:https://www.nature.com/articles/s41467-024-46445-y

本文转载于:https://www.jiqizhixin.com/articles/2024-03-22-6 如有侵犯,请联系admin@zhengruan.com删除

热门关注