图领域首个通用框架问世！ICLR\'24 Spotlight中脱颖而出，解决任何数据集和分类问题！

　　发布于2024-11-29　阅读（0）

扫一扫，手机访问

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性，又能够给出社交网络的朋友推荐？

或者既能预测不同作者的论文引用，还可以发现基因网络中的人类衰老机制？

你还真别说，被ICLR 2024接收为Spotlight的“One for All（OFA）”框架就实现了这个“精髓”。

该研究是由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者共同提出的。

作为图领域首个通用框架，OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

具体如何实现，以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来，基础大语言模型（LLMs）在处理自然语言任务方面表现出色。

然而，在图领域，虽然图神经网络（GNNs）在不同的图数据中都有着不俗的表现，但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比，图领域的通用模型设计面临着许多独有的困难。

首先，区别于自然语言，不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次，不同于LLMs中所有任务都可以被转化成统一的下文生成任务，图任务包含了多种子任务，比如节点任务，链路任务，全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后，大语言模型的成功离不开通过提示范式而实现的上下文学习（in-context learning）。

在大语言模型中，提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据，如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架：

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

具体而言，OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题，OFA通过提出文本图（Text-Attributed Graph, TAGs）的概念来统一所有图数据。利用文本图，OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述，具体如下图所示：

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$
$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

接着，OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样，来自不同领域的图数据将被映射到相同的特征空间，使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域，不同规模的图数据集，包括引用关系图，Web链接图，知识图谱，分子图，如下图所示：

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

此外，OFA提出Nodes-of-Interest（NOI）子图与NOI提示节点（NOI Prompt Node）来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如，在节点预测任务中，NOI是指需要预测的单个节点；而在链路任务中，NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后，NOI提示节点为一个新引入的节点类型，直接连接到所有的NOI上。

重要的是，每个NOI提示节点包含了当前任务的描述信息，这些信息以自然语言的形式存在，并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集，GNN模型仅需通过NOI提示节点来进行预测。

这样，所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示：

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

最后，为了实现图领域的in-context learning，OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下，这个提示子图包含了两类节点：一类是上文提到的NOI提示节点，另一类是代表k个不同类别的类别节点 (Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终，OFA将对每个类别节点分别进行二分类任务，并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中，即使遇到全新的分类问题，OFA通过构建相应的提示子图即可直接进行预测而无需任何微调，从而实现了零样本学习。

对于少样本学习场景，一个分类任务将包含一个query输入图和多个support输入图，OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连，同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息，从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下：

统一的图数据分布：通过提出文本图并用LLM转化文本信息，OFA实现了图数据的分布对齐与统一。

统一的图任务形式：通过NOI子图与NOI提示节点，OFA实现了多种图领域子任务的统一表示。

统一的图提示范式：通过提出新颖的图提示范式，OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试，这些测试覆盖了在有监督学习场景下的十种不同任务，包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力，其中作者对比使用不同LLM（OFA-{LLM}）和每个任务训练单独模型（OFA-ind-{LLM}）的效果。

比较结果如下表所示：

$图领域首个通用框架来了！入选ICLR\'24 Spotlight，任意数据集、分类问题都可搞定$

可以看到，基于OFA强大的泛化能力，一个单独的图模型（OFA-st，OFA-e5，OFA-llama2-7b，OFA-llama2-13b）即能够在所有的任务上都具有与传统的单独训练模型（GCN, GAT, OFA-ind-st）相近或更好的表现。

同时，使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间，从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下，OFA在ogbn-arxiv（引用关系图），FB15K237（知识图谱）以及Chemble（分子图）上使用单一模型进行预训练，并测试其在不同下游任务及数据集上的表现。结果如下：

可以看到，即使在零样本场景下，OFA依旧可以取得不错的效果。综合来看，实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节，可参考原论文。

地址：https://arxiv.org/abs/2310.00149https://github.com/LechengKong/OneForAll

本文转载于：https://www.51cto.com/article/781024.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：tiplus7100的首发价格为多少？

下一篇：国内首座公铁同层跨海大桥开始运行，暂时免费使用

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

人工智能技术在企业环境中的应用

人工智能在企业界的优势是什么？人工智能在企业领域的主要优势之一是，能够简化流程、提高效率。通过自动化日常任务、数据分析和决策过程，员工可以集中精力处理更复杂、更具创造性的工作。数据分析与洞察人工智能系统的应用在保险承保工作台和其他数据密集型应用中具有重要作用。它能够实时分析大量数据，并为市场趋势、客户行为和运营绩效提供有价值的见解。这种数据驱动的决策使组织能够做出明智的选择，并迅速适应不断变化的商业环境。通过人工智能系统，保险公司可以更准确地评估风险，提高承保效率，并提供更好的客户服务。同时，它还可以帮助

1分钟前人工智能 0
正版软件

滑铁卢大学团队在Nature子刊登文章，评述当下和未来中的"量子计算机与大型语言模型"

模拟当今量子计算设备的关键挑战之一是学习和编码量子比特之间复杂关联的能力。新兴技术基于机器学习语言模型已展现出学习量子态的独特能力。近期，滑铁卢大学的研究人员在《NatureComputationalScience》发表了一篇名为《Languagemodelsforquantumsimulation》的透视文章，强调了语言模型在构建量子计算机方面的重要贡献，并探讨了它们在未来量子优势竞争中的潜在作用。这篇文章突出了语言模型在量子计算领域的独特价值，指出它们可以用来解决量子系统的复杂性和精确性问题。研究人员

6分钟前 AI 量子计算 0
正版软件

改进图像感知性对比学习以提高多变量时间序列分类效果

这篇AAAI2024中的论文由新加坡科技研究局（A*STAR）和新加坡南洋理工大学合作发表，提出了一种利用图感知对比学习来改善多变量时间序列分类的方法。实验结果显示，该方法在提升时间序列分类效果方面取得了显著的成果。图片论文标题：Graph-AwareContrastingforMultivariateTime-SeriesClassification下载地址：https://arxiv.org/pdf/2309.05202.pdf开源代码：https://github.com/Frank-Wang-os

21分钟前时间序列传感器 MTS 0
正版软件

技术趋势预测：2032年云技术的发展与人工智能的挑战

2024年技术趋势：从云的演变到人工智能的威胁格局我们生活在一个日益互联的世界，科技创新不断推动技术行业发展。企业要紧跟潮流，保持警惕，走在趋势前沿，才能应对挑战。灵活性成为云和“即服务”模式的关键近年来，云计算被广泛认为是企业寻求降低IT成本的最佳解决方案，使技术领导者能够摆脱昂贵的传统基础设施。然而，展望2024年，随着组织试图通过将某些应用从公共云迁移出去，重新获得控制权，这一趋势可能会明显转向私有基础设施。虽然云计算对企业发挥着重要作用，但其提供的灵活性成为一个关键考虑因素。企业需要更严格和定制的

36分钟前人工智能云计算 0
正版软件

人工智能推动增强现实和混合现实：开拓沉浸式体验和提升运营效率的新领域

人工智能、增强现实和混合现实的融合正在迅速改变行业格局。随着人工智能算法的不断发展，AR和MR应用的功能也得到了极大的增强。通过高级对象识别和自然语言处理等技术，人工智能为用户参与度和运营效率树立了新的标准。这种融合不仅仅是一种技术趋势，更是一股重塑行业的变革力量。人工智能增强的物体识别：沉浸式AR/MR的基石人工智能在AR/MR生态系统中的一个引人注目的应用是利用机器学习算法实现对象识别。通过实时处理视觉数据，AR/MR应用能够以前所未有的精度识别对象及其上下文环境。例如，人工智能支持的面部识别技术可以

51分钟前人工智能 AR MR 0