准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

　　发布于2024-12-23　阅读（0）

扫一扫，手机访问

编辑 | X

原子到原子映射（Atom-to-atom Mapping，AAM）是识别化学反应前后分子中每个原子位置的任务，这对于理解反应机理非常重要。

近年来，随着越来越多的机器学习模型用于逆合成和反应响应结果预测，这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM，但现有方法基于子结构对齐而不是化学知识来映射原子。因此，基于子结构对齐的方法可能无法很好地反映原子之间的相互作用。

在此，来自韩国首尔大学（Seoul National University）和韩国科学技术院（KAIST）的研究团队，提出了一种 ML 模型——LocalMapper，可以通过人机回圈（human-in-the-loop）机器学习从化学家标记的反应中学习。这种 ML 模型是针对化学家标记反应过程中的不确定性进行有效处理的一种反应学习算法，可以在学习中不断优化。该算法被认为是一种改进版的自适应积分移动方法（AAM），可以有效提高学习的准确性。

研究表明，通过仅从整个数据集中2%的人类标记反应中学习，就能以98.5%的校准精度预测50K反应的AAM。更重要的是，LocalMapper给出的可信预测覆盖了50 K反应中的97%，对3,000个随机采样的反应显示出100%的准确率。

在分布外（Out-of-distribution，OOD）实验中，发现LocalMapper+性能优于其他现有方法。研究人员期望LocalMapper 可用于生成更精确的反应 AAM，并提高未来基于 ML 的反应预测模型的质量。

相关研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》为题，于 2024 年 3 月 13 日发布在《Nature Communications》上。

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

论文链接：https://www.nature.com/articles/s41467-024-46364-y

AAM 在化学研究中的重要性

AAM是一种通过识别反应物原子和产物原子之间的一对一映射，准备反应数据中发挥着至关重要的作用。高质量的AAM可以快速识别给定化学反应的反应中心，这对于许多已开发的化学反应分析和预测方法至关重要。

AAM 广泛使用的应用之一是构建缩合反应图 (CGR)。此外，AAM 还可以自动识别反应中心并从数据库中提取反应模板，用于预测反应结果和单步逆合成机器学习模型。由于这些应用高度依赖于反应数据的 AAM，因此 AAM 的质量极大地影响机器学习模型的性能。随着下游模型数量的不断增加，为反应数据集构建高质量的 AAM 成为确保反应预测模型质量的紧迫任务。

现有的 AAM 识别方法通常可分为基于规则的和基于 ML 的方法。尽管比以前的方法准确度更高，但 AAM 需要 100% 的完美准确度，因为反应数据中的缺陷将在下游反应预测模型中被放大。然而，目前还没有可靠的方法来检测可能错误预测的 AAM，这使得预测中的错误难以识别。

此外，尽管现有的基于 ML 的无监督方法比基于规则的方法要快得多，并且适用于更广泛的反应，但在不知道正确的 AAM 的情况下训练模型可能会导致意外错误，即使对于简单的反应也是如此。

三大重要突破

在此，研究人员通过 human-in-the-loop 机器学习提出了一种精确的基于图的 AAM 模型，名为 LocalMapper。

该研究的重要突破体现在以下三个方面：

所提出的基于知识的不确定性识别允许对 ML 模型预测进行快速化学感知验证，为 3,000 个随机采样的置信预测生成 100% 正确的 AAM。
开发的模型 LocalMapper 通过从人机循环机器学习生成的高质量训练数据中学习经化学家验证的 AAM，实现了最先进的 AAM 预测精度。与现有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比，仅标记 2% 的反应，显示出更好的预测精度。
在分布外实验中，LocalMapper 比两个现有的基于 ML 的 AAM 模型显示出良好的预测精度，同时保持置信预测的 100% 准确度。

人机循环机器学习框架

为了训练 LocalMapper，研究人员手动标记每个反应的 AAM，以保证训练模型的反应中 AAM 的正确性。由于手动标记化学反应的 AAM 非常耗时（每个反应通常超过一分钟），因此在大型数据集中标记大部分反应是不切实际的。因此，引入主动学习来仅标记一小部分代表性反应。

整个工作流程可以分解为以下 5 个步骤：

随机采样：为了初始化主动学习过程，从未映射的反应数据集中随机采样 k 个反应，其中 k 是人类专家一次性标记 AAM 的一个可承受的小数字。
标签和训练：接下来，手动标记采样的 k 个反应的 AAM，并使用这些反应来训练所提出的基于图的模型 LocalMapper，其结构类似于逆合成模型 LocalRetro 和反应结果预测模型 LocalTransform。从人类绘制的反应中提取的反应模板用于更新模板库，该模板库将用于后续的不确定性识别。
AAM 预测：接下来，使用 LocalMapper 来预测数据集中所有反应的反应物和产物之间的原子相关性。根据 LocalMapper 预测的原子-原子相关性，按照 Schwaller 等人引入的原子映射程序生成每个反应的 AAM。
置信度识别：对于每个预测反应的 AAM，提取反应模板来表示其反应模式。如果提取的反应模板存在于当前模板库中，则该反应预测的 AAM 集合被认为是置信预测，否则是不确定预测。
主动采样：对于从不确定预测中提取的每个唯一模板，从共享最多反应的模板开始对一个反应进行采样，直到采样到 k 个反应。然后，这些反应由人类化学家标记，并在下一次迭代中用于训练模型，重复步骤 2。

从第二次迭代开始，研究人员使用半监督学习来训练模型，从每个唯一验证的反应模板的置信预测中采样 100 个反应，以提高模型的稳健性。这些采样反应按 9:1 的比例分为训练集和验证集，以防止过度拟合。

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

图 1：在生成逆合成反应模板和基于化学知识推导反应机制方面，获取正确的原子间映射 (AAM) 的重要性。（来源：论文）

LocalMapper

为了预测反应中反应物和产物之间的 AAM，研究人员设计了一个基于图的模型，称为 LocalMapper，以了解反应物中的每个原子重新定位到产物中的原子的概率。

与之前的逆合成模型 LocalRetro 和反应结果预测 LocalTransform 类似，使用图来表示分子，以原子为节点，键为边，并通过反应中原子的局部和全局特征来学习 AAM 通过消息传递神经网络和注意力机制。

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

图 2：使用所提出的模型 LocalMapper 进行 AAM 的人机循环机器学习的总体方案。（来源：论文）

首先，研究人员使用 3 个消息传递层对每个原子的局部化学环境进行编码，并通过 3 个多头交叉注意块根据反应物的原子特征更新产物中的原子特征。在反应物和产物之间的每个原子的特征充分传达后，通过单头注意力块计算产物和反应物之间的 AAM 相关性。

使用 Softmax 函数对注意力分数进行归一化后，估计反应物中的每个原子与产物中的每个原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序，使用生成的概率从最高概率到最低概率识别从产物到反应物的 AAM。

100% 预测准确率

总之，研究人员提出了一种基于图的 ML 模型 LocalMapper，以通过人机循环机器学习精确识别大型反应数据集的 AAM。通过利用专业知识手动标记少量反应数据，训练了人机循环机器学习模型，以精确、自动地标记大量具有相似反应规则的反应。

表 1：手动检查反应 AAM 前后，RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 数据集上的 AMM 结果。（来源：论文）

对于公开可用的 USPTO-50K 数据集，该模型仅通过学习 2% 的化学家标记反应，就能以 98.5% 的准确率预测 AAM。

表 2：RXNMapper、GraphormerMapper 和 LocalMapper 在四个不同源上检查的手动映射反应的 AMM 结果。（来源：论文）

更重要的是，LocalMapper 自信预测的数据集中 97% 的反应的 AAM，表现出 100% 的预测准确率。并且在不同的分布外测试集中也观察到类似的结果。

研究人员期望所提出的 LocalMapper 可用于为未来的下游反应预测模型提供精确的反应 AAM，并有利于化学界了解更多有关反应数据集的统计见解。

GitHub 地址：https://github.com/snu-micc/LocalMapper

注：封面来自网络

本文转载于：https://www.jiqizhixin.com/articles/2024-04-03-8 如有侵犯，请联系admin@zhengruan.com删除

上一篇：哪吒CEO张勇回应周鸿祎批评：将重新上市三款车型并加强营销

下一篇：台北电脑展首秀！14代酷睿处理器实机展示，性能亮点抢先揭晓

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

聚焦用户与公司双赢，理想汽车启动矩阵组织2.0升级

2022年3月3日消息，据“36氪汽车”报道，今日下午，理想汽车发布全员公告，宣布启动矩阵型组织升级，同时进行多个部门组织架构调整。这一举措旨在进一步提升公司的组织效率和协同能力。在新的组织架构中，理想汽车将推出2.0升级版本，通过重新调整部门组织架构，以更好地适应公司快优化汽车外观设计是提升组织效率的重要步骤，加强产品线的决策与操作能力，以实现商业成功和用户满意度的双提升。通过此次调整，理想汽车将更加聚焦于产品与市场，以更快速、更精准地响应市场变化和用户需求。经过小编了解，汽车公司CEO决定重组公司为“

5分钟前 0
正版软件

中兴通讯紧跟AI趋势，努比亚新品发布会定档4月9日

"4月1日消息，努比亚今日透露，他们将于4月9日“开启一个全新的时代”，这一宣告中隐含着与AI产品的紧密关联。从官方发布的悬疑文件案中，我们可以窥见一些端倪。"在官方文案中提到：“超越你，但与你无关！文明不是替代，而是互相融合。是时候，让你知道我的存在！”这一表述类似于预示着一种新型AI技术的诞生，它不仅仅是对现有技术的超越，更可能与我们的日常生活产生深度融合。此外，文案中的“#一条来自AI的微博#”标签更是直接指向了AI技术的核心。根据2023年2月28日的财务说明会上明确表示，公司将紧跟AI浪潮，加大

10分钟前努比亚 0
正版软件

非侵入设备贴在脖子上，就能代替人类发声，研究登《自然通讯》

据研究发现，2014年美国一项针对发声障碍的研究发现，近1800万成年人在使用声道说话时存在困难，许多人认为这是难以治愈的问题。实际上，该群体中超过一半的人经历过言语衰弱问题，该问题的时间已经超过10年。这说明这个问题不是不可逆转的，而是需要及早治疗。对于许多人来说，谈论这件小事可能很难，特别是当涉及到个人经历时。目前，一种新型非侵入式穿戴设备成为了这一医疗需求新的解决方案。该技术包括粘附附在脖子上的轻质贴片，该贴片可以测量人的颈部运动。接着，设备处理器将这些信息转换为语音，然后播放语音音频频率来代替人类

30分钟前 AI 科学 0
正版软件

三星Galaxy S23系列指纹识别故障，软件更新即将推出

近日，三星针对GalaxyS23系列手机推送了OneUI6.1更新。然而，该更新却意外地影响了手机的指纹识别功能，引发了一系列问题。据用户反馈，在尝试使用指纹识别来解锁手机时，经常会出现第一次识别不成功的情况，需要在重新尝试两次方可解锁。甚至有用户表示，每次使用指纹识别时，系统会发生崩溃，必须连续尝试两次方可解锁。这个问题并非个别现象，而是得到了三星韩国社区论坛一位社区经理的确认。他坦诚地承认了这一问题的存在，并向受影响的用户表示歉意。他解释称：“我们深感抱歉，因为在某些情况下，锁屏状态下的指纹识别功能确

50分钟前三星 0
正版软件

iQOO Z9 Turbo新机曝光：首批搭载骁龙8s Gen3，性价比出众

2022年3月3日消息，近日，iQOO的产品经理邢程通过微博向公众展示了一款备受瞩目的"vivo新机"——iQOOZ9Turbo。这款手机凭借其前沿的技术配置，成功跳身为首批搭载高通骁龙8sGen3移动平台的机型。iQOOZ9Turbo采用了顶尖的处理器和高速内存，为用户提供了出色的性能和流畅的操作体验。配备了高通骁龙8sGen3移动平台，iQOOZ9Turbo能够轻松应对各类复杂任务，并实现高速的应用启动。此外，iQOOZ9Turbo还配备了先进的技术配置，包括强大的摄影系统、高通骁龙8sGen3，作为

1小时前 20:20 iQOO 0

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

人机循环机器学习框架

LocalMapper

产品推荐

最新发布

相关推荐

热门关注