超越SOTA的语言模型与几何深度学习技术相结合，用于开发Lingo3DMol的3D分子生成模型

　　发布于2024-11-25　阅读（0）

扫一扫，手机访问

优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

编辑 | X

分子生成是 AI 助力小分子新药研发的核心技术。望石智慧始终专注于分子生成技术的开发。

最近，望石智慧的研究团队发布了Lingo3DMol，这是一种利用语言模型和几何深度学习技术生成小分子配体的3D结构的方法。通过该方法，可以根据给定的口袋3D结构，快速生成相应的配体结构。这项技术的推出为小分子药物设计和研发提供了一种新的有效工具。

研究人员在传统的 SMILES 分子表征的基础上，开发了新的分子表示方法 FSMILES。

此外，研究还对一个独立的非共价相互作用预测器进行了训练，以为生成模型提供必要的结合模式信息。Lingo3DMol能够有效地跨越类似药物的化学空间，避免异常结构的形成。相比于最先进的方法，Lingo3DMol在药物相似性、合成可及性、口袋结合模式和分子生成速度方面表现优越。

该研究以「Generation of 3D molecules in pockets via a language model」为题，于 2024 年 1 月 15 日发布在《Nature Machine Intelligence》上。

优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

论文链接：https://www.nature.com/articles/s42256-023-00775-6

当前 3D 分子生成方法的局限性

基于结构的药物设计涉及设计能够特异性结合所需靶蛋白的分子，这是一项基础且具有挑战性的药物发现任务。使用 AI 从头生成分子最近作为药物发现工具而受到关注。

早期的分子生成模型依赖于分子字符串表示或图表示。然而，这两种表示都忽略了 3D 空间相互作用，使得它们对于目标感知分子的生成来说不是最佳的。3D 蛋白质-配体复合结构数据的增加和几何深度学习（Geometric Deep Learning）的进步为 AI 算法直接设计具有 3D 结合姿势的分子铺平了道路。

一些研究提出将口袋和分子表示为 3D 图，并使用图神经网络（GNN）进行编码和解码。尽管这些方法可以生成具有 3D 构象的分子，但它们有一些共同的缺点：(1) 生成的分子通常包含有问题的、非类药物或不可合成的子结构；（2）有问题的拓扑结构：生成的分子通常包含过多的环或根本没有环。

此外，还有一些基于其他技术路线的 3D 分子生成方法，如基于扩散模型的方法。代表性方法是 TargetDiff，它使用基于图的扩散模型进行非自回归分子生成。尽管它努力避免自回归方法，但它仍然会产生显著比例的不良结构。

虽然基于图的 3D 分子生成方法最近显示出巨大的潜力，但它们仍然面临着在给定口袋上复制参考分子而没有任何信息泄漏的困难，这是评估的重要基准。

Lingo3DMol：一种基于口袋的 3D 分子生成方法

为了解决上述问题，望石智慧提出了 Lingo3DMol。

优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

图示：Lingo3DMol 模型开发概述。（来源：论文）

首先，引入了一种新的分子序列编码方法，即具有局部和全局坐标的基于片段的简化分子线性输入系统（Fragment-based Simplified Molecular-input line-entry System，FSMILES）。通过（1）引入片段间分隔符；（2）片段间以深度优先的原则遍历；（3）把环的大小编码到环原子上，在保持表达能力不变的情况下最大程度的压缩了表达方式，同时使得片段中的相关原子可以携带其所在环的整体信息，这降低了自回归生成过程的难度。

研究人员将局部球面坐标系和全局欧几里德坐标系集成到其模型中。由于配体中的键长和键角本质上是刚性的，因此直接预测它们比预测原子的欧几里得坐标更容易。这两种类型的坐标的组合使模型能够考虑更大的空间上下文，同时保持准确的子结构。

此外，通过合并单独训练的 NCI/anchor 预测器，在分子生成过程中还考虑了非共价相互作用 (NCI) 和配体-蛋白质结合模式。

研究还使用了类似于 BART 和 Chemformer 的 3D 分子去噪预训练策略来提高模型的泛化能力。Lingo3DMol 模型根据 PDBbind2020 的数据进行了微调。

最后，研究人员在 Directory of Useful Decoys-Enhanced（DUD-E）数据集上评估了 Lingo3DMol，并将其与最先进的 (SOTA) 方法进行了比较。Lingo3DMol 在各种指标上都优于现有方法。

该研究的主要贡献可概括如下：

引入了一种新的 FSMILES 分子表示，它结合了局部和全局坐标，从而能够生成具有合理 3D 构象和二维 (2D) 拓扑的 3D 分子。
开发了 3D 分子去噪预训练方法和独立的 NCI/anchor 模型，以帮助克服数据有限的问题并识别潜在的 NCI 结合位点。
所提出的方法在各种指标方面均优于 SOTA 方法，包括药物相似性、合成可及性和口袋结合模式。

优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

图示：生成分子的案例研究，涉及 3D 结合模式和与活性化合物的 2D 相似性。（来源：论文）

消融分析

有效的预训练和微调分析

具体来说，对于 DUD-E targets，将经过预训练和未经预训练的模型生成的分子分别与预训练集中的分子进行比较。研究证明，与未经预训练的模型生成的分子相比，预训练模型生成的分子与预训练集中的分子表现出更高程度的相似性。这表明模型在微调后保留了预训练的效果。如下表所示，预训练显著提高了类药分子的百分比、平均 QED、ECFP_TS > 0.5 的百分比、平均 min-in-place GlideSP 得分和多样性。

表：消融研究中产生的类药物分子的比较。（来源：论文）

优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

NCI 预测模型消融研究

在这项消融研究中，研究人员将使用随机选择的 NCI 位点的 Lingo3DMol 与使用训练有素的 NCI 位点预测器的标准 Lingo3DMol 进行了比较。标准 Lingo3DMol 在大多数指标上都表现出优异的性能，特别是在药物相似度和 ECFP_TS > 0.5 方面。

最后，值得注意的是，对于超过 95% 的 DUD-E targets，训练集（PDBbind, general set, v.2020）和基准模型的训练集（CrossDocked2020）都包含至少一个在 ECFP4 指纹方面与 DUD-E 活性物的 Tanimoto 相似度大于 0.5 的分子。然而，与具有随机 NCI 和基线模型的 Lingo3DMol 相比，标准 Lingo3DMol 的 ECFP_TS > 0.5 的显著改进表明，这种改进不能仅仅归因于模型再现了训练期间所看到的内容。

下一步研究

尽管如此，挑战仍然存在。由于自回归生成过程，捕获单个分子内的所有 NCI 并不简单，研究人员计划进一步研究这个问题。用电子密度表示分子和分子间相互作用也许提供了一个有前途的方向。

此外，等方差性质是 3D 分子生成的一个关键方面。目前，使用旋转和平移增强来增强模型，并使用 SE(3) 不变特征来缓解该问题。最

最后，通过案例分析并使用化学信息学工具评估了药物样特性。然而，对这些特性进行全面、系统的评估是进一步研究的重要一步。

注：封面来自于网络。

本文转载于：https://www.jiqizhixin.com/articles/2024-01-22-18 如有侵犯，请联系admin@zhengruan.com删除

上一篇：简化机器学习模型部署的有效策略

下一篇：图像标注方法的常见应用场景及应用方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

面对当前数据和人工智能市场的不确定性，该如何应对？

对于一直关注数据分析和人工智能（AI）市场新闻的人来说，过去几年发生了巨大的变化。开源语言的兴起给传统的分析技术带来了压力，像SAS这样的公司不得不面对新的竞争。初创企业也经历了艰难的时期，它们烧光了现金，并从中吸取了宝贵的教训，有时甚至没有找到可持续的商业模式。此外，生成式人工智能的快速普及让每个人都感到自己是否能跟上竞争步伐的担忧。总的来说，数据分析领域的不确定性前所未有地增加。因此，从长远角度考虑建立的分析合作伙伴关系比以往任何时候都更加重要。选择的技术是否经得起时间的考验?是否选择具有良好业绩记录

10分钟前人工智能数据 0
正版软件

计算机视觉的概念、意义、基础和现状

计算机视觉（CV）是人工智能（AI）的一个领域，旨在使计算机能够模仿人类的视觉系统，以更好地理解和解释数字图像和视频的内容。这个过程主要涉及图像的获取、筛选、分析、识别和信息提取。可以说，AI让计算机具备了思考的能力，而CV则赋予了它们观察和理解的能力。计算机视觉的价值计算机视觉系统经过训练和优化，可以实时分析大量产品或流程，帮助发现问题。其速度、客观性、连续性、准确性和可扩展性超越了人类的能力。它能够检查产品、观察基础设施或生产过程，并进行实时分析。这种技术的应用使得问题的发现更加高效和准确。最新的计算

20分钟前人工智能计算机视觉 0
正版软件

深度聚类算法的概述与综合分析

深度聚类是一种结合了深度学习模型和聚类算法的方法，用于自动地从数据中学习特征并将数据分组成具有相似特征的类别。相较于传统的聚类算法，深度聚类能够有效处理高维度、非线性和复杂的数据，并具有更好的表现力和精度。通过深度学习模型，深度聚类可以学习到数据的抽象表示，从而更好地捕捉数据的内在结构和相似性。这种方法的优势在于能够自动地学习到数据的特征，而无需手动定义特征，从而减少了人为因素的干扰。深度聚类在许多领域都有广泛的应用，如计算机视觉、自然语言处理和推荐系统等。深度聚类的核心思想是利用深度学习模型将数据降维到

30分钟前深度学习机器学习 0
正版软件

了解梯度提升树算法的基本原理

梯度提升树是一种集成学习算法，通过迭代训练决策树模型，然后将多个决策树模型加权融合，构建更强大的分类或回归模型。这个算法基于加法模型，每个新的决策树模型都是为了最小化前一个模型的残差。最终模型的预测结果是所有决策树模型的加权平均。梯度提升树因其高准确性和鲁棒性而被广具体而言，梯度提升树的原理如下：首先，将训练数据集划分为训练集和验证集。使用训练集训练基础决策树模型作为初始模型。首先，计算训练集上的残差，即真实值与预测值之差。然后，使用残差作为新的目标变量，在其上训练一个新的决策树模型。最后，将新模型与初始

45分钟前人工智能机器学习算法的概念 0
正版软件

诺基亚G22即将推出，更新Android 14，注重可维修性的领先地位

HMDGlobal近日加快了诺基亚品牌手机的系统更新进程。根据最新的GeekBench跑分库数据显示，诺基亚G22手机已开始测试安卓14系统的更新，尽管具体的推送时间还未公布。这一消息进一步彰显了该公司致力于为用户提供最新操作系统体验的决心。除了诺基亚G22，诺基亚X30、G42、G605G等手机也在系统更新方面取得了进展。这些努力将为用户带来更流畅、安全和功能丰富的手机使用体验。我们期待着HMDGlobal继续推动诺基亚品牌手机的系统升级，为用户带来更多惊喜。诺基亚G22手机的硬件配置颇为出色，其搭载了

55分钟前 HMD 0

超越SOTA的语言模型与几何深度学习技术相结合，用于开发Lingo3DMol的3D分子生成模型

产品推荐

最新发布

相关推荐

热门关注