首个图像序列基准测试开源，GPT-4V/Gemini的准确率低于20%，对于漫画无法理解！

　　发布于2024-11-28　阅读（0）

扫一扫，手机访问

OpenAI的GPT-4V和谷歌的Gemini多模态大语言模型引起了业界和学界的广泛关注。这些模型在多个领域展示了对视频的深入理解能力，从不同角度呈现出了其潜力。人们普遍认为这些进展是通向通用人工智能（AGI）的重要一步。

可如果告诉你，GPT-4V连漫画中的人物行为都会看错, 试问：元芳,你怎么看？

我们来看看这幅迷你漫画系列:

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

如果让生物界最高智能体——人类，也就是读者朋友来描述, 你大概率会说:

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候，它会这么描述呢?

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

GPT-4V作为公认的站在鄙视链顶端的机器智能体，居然公然睁眼说瞎话。

还有更离谱的是，就算给GPT-4V实际的生活图像片段，它也会把一个人上楼梯过程中与另一个人交谈的行为也离谱的识别成两个人手持「武器」相互打斗嬉闹（如下图所示）。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

Gemini也不遑多让，同样的图像片段，把这个过程看成了男子艰难上楼并与妻子争吵被锁在屋里。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

这些例子都来自于马里兰大学联合北卡教堂山的研究团队的最新成果，他们推出了一个专门为MLLM设计的图像序列的推理基准测试——Mementos。

就像诺兰的电影《Memento记忆碎片》重新定义了叙事方式，Mementos正在重塑测试人工智能的上限。

作为一个全新的基准测试，它挑战的是人工智能对如记忆碎片般的图像序列的理解。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

论文链接：https://arxiv.org/abs/2401.10529

项目主页：https://mementos-bench.github.io

Mementos是第一个专为MLLM设计的图像序列推理的基准测试，主要关注大模型在连续图像上的对象幻觉和行为幻觉。

其涉及的图片类型多样，涵盖三大类别：真实世界图像，机器人图像，以及动漫图像。

并且包含了4,761个不同长度的多样化图像序列，每个序列都配有人类注释的主要对象及其在序列中的行为描述。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

目前数据已经开源，并且还在更新中。

幻觉类型

作者在论文中阐述了MLLM在Mementos中会产生的两种幻觉：对象幻觉（object hallucination）和行为幻觉（behavior hallucination）。

顾名思义, 对象幻觉是幻想出不存在的对象(object), 而行为幻觉则是幻想出对象并没有做出的动作与行为。

测评方式

对于如何准确的评估MLLM在Mementos上的行为幻觉和对象幻觉，研究团队选择了将MLLM产生的图像描述和人标注的描述进行关键词匹配。

为了自动化评测每一个MLLM的表现，作者采用了GPT-4辅助测试的方法来进行评估：

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

1. 作者将图像序列和提示词作为输入给MLLM，并生成与相应图像序列对应的描述；

2. 请求GPT-4提取AI生成描述中的对象和行为关键词；

3. 获得两个关键词列表：AI生成的对象关键词列表和AI生成的行为关键词列表；

4. 计算AI生成的对象关键词列表和行为关键词列表和人的标注的关键词表的召回率、准确率和F1指标。

测评结果

作者在Mementos上评估了MLLMs在序列图像推理方面的表现，对包括GPT4V和Gemini在内的九种最新的MLLMs进行了细致的评估。

MLLM被要求来描述图像序列中正在发生的事件，从而来测评MLLM对于连续图像的推理能力。

结果发现，如下图所示，GPT-4V和Gemini对于人物行为在漫画数据集的正确率竟然不到20%。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

而在真实世界图像和机器人图像中，GPT-4V和Gemini的表现也不尽如人意：

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

关键点

1. 在评估多模态大型语言模型时，GPT-4V和LLaVA-1.5分别是在黑盒和开源MLLMs中表现最好的模型。GPT-4V在理解图像序列方面的推理能力优于其他所有MLLMs，而LLaVA-1.5在对象理解方面几乎与黑盒模型Gemini相当或甚至超越。

2. 虽然Video-LLaMA-2和Chat-UniVi是为视频理解设计的，但它们并没有显示出比LLaVA-1.5更好的优势。

3. 所有MLLMs在图像序列中对象推理的三个指标上表现显著优于行为推理，表明当前MLLMs在从连续图像中自主推断行为的能力不强。

4. 黑盒模型在机器人领域的表现最佳，而开源模型在日常生活领域表现相对较好。这可能与训练数据的分布偏移有关。

5. 训练数据的局限性导致开源MLLMs的推理能力较弱。这表明了训练数据的重要性以及它对模型性能的直接影响。

错误原因

作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析，主要识别了三个错误原因:

1. 对象与行为幻觉之间的相互作用

研究假设，错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明，对象幻觉会在一定程度上导致行为幻觉。例如，当MLLM错误地将场景识别为网球场后，可能会描述人物正在打网球，即使这种行为在图像序列中并不存在。

2. 共现对行为幻觉的影响

MLLM倾向于生成在图像序列推理中常见的行为组合，这加剧了行为幻觉的问题。例如，在处理机器人领域的图像时，MLLM可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉，即使实际行为是“抓取抽屉的侧面”。

3. 行为幻觉的雪球效应

随着图像序列的进行，错误可能会逐渐累积或加剧，这称为雪球效应。在图像序列推理中，如果早期出现错误，这些错误可能会在序列中积累和放大，导致对象和行为识别的准确性下降。

举个例子

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

从上图可知，MLLM失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性，以及共现行为。

例如，在出现「网球场」的对象幻觉后，MLLM随后展现出「拿着网球拍」的行为幻觉（对象幻觉与行为幻觉之间的相关性）以及「似乎在打网球」的共现行为。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

观察上图中的样本，可以发现MLLM错误地认为椅子再往后仰并且认为椅子碎掉了。

这一现象揭示了MLLM对于图像序列中的静止的对象，它也会产生这个对象发生了某些动作的幻觉。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

在上图关于机械臂的图像序列展示中，机械臂伸到了把手旁边，MLLM就错误地认为机械臂抓住了把手，证明了MLLM会生成在图像序列推理中常见的行为组合，从而产生幻觉。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

在上图的案例中，老夫子并没有牵着狗，MLLM错误地认为遛狗就要牵着狗，并且「狗的撑杆跳」被识别成了「创造了喷泉」。

大量的错误反映了MLLM对于漫画领域的不熟悉，在二次元动漫领域，MLLM可能需要大幅度的优化和预训练.

在附录中，作者通过详细展示了各主要类别中的失败案例，并进行了深入的分析。

总结

近年来，多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。

这些模型，如GPT-4V和Gemini，能够理解和生成与图像相关的文本，极大地推动了人工智能技术的发展。

然而，现有的MLLM基准测试主要集中于基于单张静态图像的推理，而对于从图像序列中推断，这对于理解我们不断变化的世界至关重要，的能力研究相对较少。

为了解决这一挑战，研究人员提出了一种新的基准测试「Mementos」，目的是评估MLLMs在序列图像推理方面的能力。

Mementos包含了4761个不同长度的多样化图像序列。此外，研究团队还采用了GPT-4辅助方法来评估MLLM的推理性能。

通过对九个最新的MLLMs（包括GPT-4V和Gemini）在Mementos上的仔细评估，研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战，常常导致对象及其行为的幻觉/误表达。

量化分析和案例研究识别出三个关键因素影响MLLMs的序列图像推理：

1. 对象和行为幻觉之间的相关性；

2. 共现行为的影响；

3. 行为幻觉的累积影响。

这一发现对于理解和提升MLLMs在处理动态视觉信息方面的能力具有重要意义。Mementos基准不仅揭示了当前MLLMs的局限性，也为未来的研究和改进提供了方向。

随着人工智能技术的快速发展，MLLMs在多模态理解领域的应用将变得更加广泛和深入。Mementos基准测试的引入，不仅推动了这一领域的研究，也为我们提供了新的视角，去理解和改进这些先进的AI系统如何处理和理解我们复杂多变的世界。

参考资料：

https://github.com/umd-huanglab/Mementos

本文转载于：https://www.51cto.com/article/780731.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：又好看又能打！技嘉 GeForce RTX 40 SUPER 系列显卡开售中

下一篇：选择合适的笔记本电脑来畅玩大型游戏

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

马斯克与擎天柱一同散步

特斯拉机器人叠衣服刚掀热潮，短短几天，马斯克又晒擎天柱“散步”视频，再次引来大量网友围观。只见偌大的工厂里，擎天柱悠哉悠哉的一步两步，首先可以肯定的是没有顺拐：腿部动作比之前更自然一些，速度也比以前快了不少：也可以看到脚后跟先着地这样的细节处理：总的来说，主打一个字“稳”，步态似乎更接近人类了：短短十几秒视频，激起网友们热烈讨论。英伟达机器学习专家BojanTunguz化用阿姆斯特朗登月时的名言，称：对一个机器人来说这是一小步，但对“机器人类”（robotkind）来说却是巨大的飞跃。毕竟，之前擎天柱走起

6分钟前模型 AI 0
正版软件

谷歌安卓 15 将提供新功能：Auracast 页面，实现音频共享至附近设备

本站2月1日消息，根据国外科技媒体AndroidAuthority报道，谷歌计划在安卓15系统中，开辟专门的音频分享界面，凸显Auracast功能，方便用户向就近设备共享媒体音频。蓝牙特别兴趣小组于2022年宣布了Auracast功能，这是一种即将推出的蓝牙广播功能，旨在提升无线音频体验。Auracast将赋予用户与朋友和家人共享音频的能力，为他们带来更加丰富的互动体验。这一创新功能有望开启全新的无线音频时代，让人们更加轻松地分享和欣赏音乐、播客等内容。该功能以前被称为AudioSharing，随后更改为

16分钟前谷歌安卓 0
正版软件

思特威推出新品SC5000CS手机图像传感器，有效降低暗场噪声

2月1日，CMOS图像传感器供应商思特威发布了一款专为手机设计的5000万像素图像传感器SC5000CS。这一最新研发成果将为手机摄影带来更高质量的图像拍摄能力。这款新型的背照式(BSI)传感器采用了0.702μm像素尺寸设计，并集成了思特威独家的SFCPixel-SL技术。通过SFCPixel专利技术架构的进一步优化，该技术创新地在像素内实现了双转换增益设计，从而显著提升了传感器的动态范围，并在暗场环境下展现出更低的噪声表现。传感器尺寸为1/2.5英寸，非常适合用作智能手机的主摄像头，并且支持PDAF相

31分钟前思特威 0
正版软件

奇瑞推出全新政策：二手车官方认证可享受终身质保服务

奇瑞汽车宣布，自2024年2月1日起，符合条件的“官方认证二手车”也可享受终身质保。这一政策的推出为消费者带来了更多的利好。作为其“全系车型整车终身质保”政策实施一周年的庆祝活动，奇瑞汽车再次展示了对消费者的关注和承诺。这一举措将进一步提升二手车购买的信心，为消费者提供更加可靠和放心的选择。奇瑞汽车于2022年发布了“官方认证二手车”标准，要求车龄不超过8年，行驶里程不超过15万公里，且无重大事故、火烧、泡水等情况。符合标准的车辆可以被认定为“官方认证二手车”，享有原厂提供的1年或2万公里保修服务，以及免

46分钟前奇瑞 0
正版软件

揭秘英特尔最强大的处理器W9-3595X：60核心、120线程终极怪兽露面

英特尔旗舰型号工作站处理器至强W9-3595X最近在Geekbench基准测试数据库中曝光。据了解，这款处理器是SapphireRapids家族的一员。在公开的测试中，至强W9-3595X处理器都与华硕ProWSW790-ACE主板配对使用。这表明未来的至强W-3500系列处理器将与现有的W790主板平台保持兼容性。根据小编了解，至强W9-3595X处理器在规格上有了明显的提升。它的核心数从56增加到了60，线程数从112增加到了120。同时，新一代处理器配备了更大的缓存容量，L2缓存增加到了120MB，

1小时前 03:40 英特尔 0