语言模型在MIT最新研究中实现了基于代码的「视觉」表征训练

　　发布于2024-11-27　阅读（0）

扫一扫，手机访问

只会「看书」的大语言模型，有现实世界的视觉感知力吗？通过对字符串之间的关系进行建模，关于视觉世界，语言模型到底能学会什么？

最近，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）的研究人员对语言模型进行了评估，重点是其视觉能力。他们通过要求模型生成和识别出越来越复杂的视觉概念，从简单形状和物体到复杂场景，来测试模型的能力。研究人员还展示了如何使用纯文本模型训练一个初步的视觉表征学习系统。通过这项研究，他们为进一步发展和改进视觉表征学习系统奠定了基础。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

论文链接：https://arxiv.org/abs/2401.01862

由于语言模型无法处理视觉信息，研究中使用代码渲染图像。

尽管LLM生成的图像可能不像自然图像那样逼真，但从生成结果和模型的自我纠正来看，它能够准确地建模字符串/文本，这使得语言模型能够学习关于视觉世界中的许多概念。

研究人员还研究了利用文本模型生成的图像进行自监督视觉表征学习的方法。结果显示，这种方法有潜力用于训练视觉模型，并且仅使用LLM就可以对自然图像进行语义评估。

语言模型的视觉概念

先问一个问题：对于人来说，理解「青蛙」的视觉概念意味着什么？

知道它皮肤的颜色、有多少只脚、眼睛的位置、跳跃时的样子等细节就足够了吗？

人们通常认为要理解青蛙的概念，需要观察青蛙的图像，并从多个角度和真实场景中观察。

如果只观察文本的话，可以多大程度上理解不同概念的视觉意义？

换到模型训练角度来看，大型语言模型（LLM）的训练输入就只有文本数据，但模型已经被证明可以理解有关形状、颜色等概念的信息，甚至还能通过线性转换到视觉模型的表征中。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

也就是说，视觉模型和语言模型在世界表征方面是很相似的。

但现有的关于模型表征方法大多基于一组预先选择的属性集合来探索模型编码哪些信息，这种方法无法动态扩展属性，而且还需要访问模型的内部参数。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

所以研究人员提出了两个问题：

1、关于视觉世界，语言模型到底了解多少？

2、能否「只用文本模型」训练出一个可用于自然图像的视觉系统？

为了找到答案，研究人员通过测试不同语言模型在渲染（render, 即draw）和识别（recognize, 即see）真实世界的视觉概念，来评估哪些信息包含在模型中，从而实现了测量任意属性的能力，而无需针对每个属性单独训练特征分类器。

虽然语言模型无法生成图像，但像GPT-4等大模型可以生成出渲染物体的代码，文中通过textual prompt -> code -> image的过程，逐步增加渲染物体的难度来测量模型的能力。

研究人员发现LLM在生成由多个物体组成的复杂视觉场景方面出奇的好，可以高效地对空间关系进行建模，但无法很好地捕捉视觉世界，包括物体的属性，如纹理、精确的形状，以及与图像中其他物体的表面接触等。

文中还评估LLM识别感知概念的能力，输入以代码表示的绘画，代码中包括形状的序列、位置和颜色，然后要求语言模型回答代码中描述的视觉内容。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

实验结果发现，LLM与人类正好相反：对于人来说，写代码的过程很难，但验证图像内容很容易；而模型则是很难解释/识别出代码的内容，但却可以生成复杂场景。

此外，研究结果还证明了语言模型的视觉生成能力可以通过文本纠错（text-based corrections）来进一步改善。

研究人员首先使用语言模型来生成说明概念的代码，然后不断输入提示「improve its generated code」（改善生成的代码）作为条件来修改代码，最终模型可以通过这种迭代的方式来改善视觉效果。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

视觉能力数据集：指向场景

研究人员构建了三个文本描述数据集来测量模型在创建、识别和修改图像渲染代码的能力，其复杂度从低到高分别为简单的形状及组合、物体和复杂的场景。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

1. 图形及其组成（Shapes and their compositions）

包含来自不同类别的形状组成，如点、线、2D形状和3D形状，具有32种不同的属性，如颜色、纹理、位置和空间排列。

完整的数据集包含超过40万个示例，使用其中1500个样本进行实验测试。

2. 物体（Objects）

包含ADE 20K数据集的1000个最常见的物体，生成和识别的难度更高，因为包含更多形状的复杂的组合。

3. 场景（Scenes）

由复杂的场景描述组成，包括多个物体以及不同位置，从MS-COCO数据集中随机均匀抽样1000个场景描述得到。

数据集中的视觉概念都是用语言进行描述的，例如场景描述为「一个阳光明媚的夏日，在海滩上，有着蔚蓝的天空和平静的海洋」（a sunny summer day on a beach, with a blue sky and calm ocean）。

在测试过程中，要求LLM根据描绘的场景来生成代码并编译渲染图像。

实验结果

评估模型的任务主要由三个：

1. 生成/绘制文本：评估LLM在生成对应于特定概念的图像渲染代码方面的能力。

2. 识别/查看文本：测试LLM在识别以代码表示的视觉概念和场景方面的性能。我们测试每个模型上的人类绘画的代码表示。

3. 使用文本反馈纠正绘图：评估LLM使用自身生成的自然语言反馈迭代修改其生成代码的能力。

测试中对模型输入的提示为：write code in the programming language [programming language name] that draws a [concept]

然后根据模型的输出代码进行编译并渲染，对生成图像的视觉质量和多样性进行评估：

1. 忠实度（Fidelity）

通过检索图像的最佳描述来计算生成的图像与真实描述之间的忠实度。首先使用CLIP得分计算每个图像与同一类别（形状/物体/场景）中所有潜在描述之间的一致性，然后以百分比报告真实描述的排序（例如，得分100%意味着真实概念排名第一）。

2. 多样性（Diversity）

为了评估模型渲染不同内容的能力，在代表相同视觉概念的图像对上使用LPIPS多样性得分。

3. 逼真度（realism）

对于从ImageNet的1K图像的采样集合，使用Fréchet Inception Distance（FID）来量化自然图像和LLM生成的图像的分布差异。
对比实验中，使用Stable Diffusion获得的模型作为基线。
LLM能可视化（visualize）什么？
研究结果发现，LLM可以从整个视觉层次可视化现实世界的概念，对两个不相关的概念进行组合（如汽车形状的蛋糕），生成视觉现象（如模糊图像），并设法正确解释空间关系（如水平排列「一排自行车」）。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

意料之中的是，从CLIP分数结果来看，模型的能力会随着从形状到场景的概念复杂性的增加而下降。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

对于更复杂的视觉概念，例如绘制包含多个对象的场景，GPT-3.5和GPT-4在使用processing和tikz绘制具有复杂描述的场景时比python-matplotlib和python-turtle更准确。

对于物体和场景，CLIP分数表明包含「人」，「车辆」和「户外场景」的概念最容易绘制，这种渲染复杂场景的能力来自于渲染代码的表现力，模型在每个场景中的编程能力，以及所涉及的不同概念的内部表征质量。

LLM不能可视化什么？

在某些情况下，即使是相对简单的概念，模型也很难绘制，研究人员总结了三种常见的故障模式：

1. 语言模型无法处理一组形状和特定空间组织（space organization）的概念；

2. 绘画粗糙，缺乏细节，最常出现在Davinci中，尤其是在使用matplotlib和turtle编码时；

3. 描述是不完整的、损坏的，或只表示某个概念的子集（典型的场景类别）。

4. 所有模型都无法绘制数字。

多样性和逼真度

语言模型展示了生成相同概念的不同可视化的能力。

为了生成相同场景的不同样本，文中对比了两种策略：

1. 从模型中重复采样；

2. 对参数化函数进行采样，该参数化函数允许通过更改参数来创建概念的新绘图。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

模型呈现视觉概念的多样化实现的能力反映在高LPIPS多样性分数中；生成不同图像的能力表明，LLM能够以多种方式表示视觉概念，而不局限于一组有限的原型。

LLM生成的图像远不如自然图像真实，与Stable Diffusion相比，模型在FID指标上得分很低，但现代模型的性能要比旧模型更好。

从文本中学习视觉系统

训练和评估

研究人员使用无监督学习得到的预训练视觉模型作为网络骨干，使用MoCo-v2方法在LLM生成的130万384×384图像数据集上训练ResNet-50模型，总共200个epoch；训练后，使用两种方法评估在每个数据集上训练的模型的性能：

1. 在ImageNet-1 k分类的冻结主干上训练线性层100 epoch，

2. 在ImageNet-100上使用5-最近邻（kNN）检索。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

从结果中可以看到，仅使用LLM生成的数据训练得到的模型，就可以为自然图像提供强大的表征能力，而无需再训练线性层。

结果分析

研究人员将LLM生成的图像与现有程序生成的图像进行对比，包括简单的生成程序，如dead-levaves，fractals和StyleGAN，以生成高度多样化的图像。

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

从结果中来看，LLM方法要优于dead-levaves和fractals，但还不是sota；在对数据进行人工检查后，研究人员将这种劣效性（inferiority）归因于大多数LLM生成的图像中缺乏纹理。

为了解决这一问题，研究人员将机Shaders-21k数据集与从LLM获得的样本相结合以生成纹理丰富的图像。

从结果中可以看到，该方案可以大幅提升性能，并优于其他基于程序生成的方案。

本文转载于：https://www.51cto.com/article/780766.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：上汽大众ID.家族逆袭，实现单月销量破万，成为新能源市场的成功者

下一篇：长城汽车拓展新能源市场，计划扩大直营门店网络

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

数据驱动：人工智能范式转变中，从模型为中心转向数据为核心

面向数据的人工智能可以有助于减少生成式AI系统中的幻觉和偏见，从而提高其输出质量。译自TheParadigmShiftfromModel-CentrictoData-CentricAI，作者RahulPradhan拥有16年以上的经验，目前担任Couchbase的产品和战略副总裁。随着变压器神经网络和生成对抗网络（GAN）人工智能（AI）的进步，科技领域正在经历一次重大变革。这些技术不仅具有巨大的潜力，还能解锁创新和规模化创造力。它们能够提供更精确、高效的解决方案，并为各行各业带来新的商机和发展机会。变压

33分钟前模型人工智能数据 0
正版软件

南大周志华团队的8年努力：「学件」系统解决机器学习复用困难，「模型融合」带来科研新模式

HuggingFace是最热门的机器学习开源社区，拥有30万个不同的机器学习模型和10万个可用的应用。如果HuggingFace上这30万个模型，可以自由组合，共同完成新的学习任务，那会是一种什么样的画面？其实在HuggingFace问世的2016年，南京大学周志华教授就提出了「学件」（Learnware）概念，描绘了这样的蓝图。最近，南京大学周志华教授团队推出了一个这样的平台——北冥坞。地址：https://bmwu.cloud/北冥坞不仅提供给科研人员和用户上传自己的模型，还能根据用户需求进行模型匹配

43分钟前 AI 机器学习 0
正版软件

AI在数字化转型战略中定位的五个关键问题

新冠疫情加速了企业在数字化方面的投资，这与我25年的数字化转型职业生涯中看到的任何事情都不同。根据我们最新的研究结果，仅在2023年，大公司平均将承担20项计划，每项计划的成本至少为100万美元。决策者预计在未来几年内将承担更多类似的项目。这表明企业越来越重视客户和员工的数字化体验，并将继续投资以适应不断变化的市场需求。当然，每个行业的领导者最关心的是AI所拥有的潜力。高盛研究人员预测，到2025年，仅在美国，AI投资预计将达到1000亿美元。然而，许多领导者在没有完全理解AI的潜力的情况下，就被其占据了

58分钟前人工智能数字化转型 0
正版软件

新算法实现超过96%的聚类精度，大幅提升脑机接口性能

编辑|萝卜皮使用多个电极来记录神经元活动是一种常用的方法，可以帮助我们了解大脑的功能机制。通过增加电极数量，科学家能够更准确地解码不同类型的功能。然而，由于硬件资源有限和不可避免的热组织损伤，处理大量多通道电生理数据仍然是具有挑战性的任务。韩国大邱庆北科学技术院的研究团队提出了一种利用机器学习技术进行高频神经元尖峰信号重建的方法。该方法基于二次采样的低频信号，通过机器学习算法对信号进行重建。这种方法可以有效地提取高频神经元活动的信息，并且能够准确地还原原始信号。研究团队通过实验验证了该方法的有效性，证明了

1小时前 22:20 机器学习神经元图像处理理论 0
正版软件

医疗保健领域中，如何平衡人工智能的利益与安全和隐私风险

基于风险的方法建议提供商在高风险领域投入更多精力，而在低风险领域投入较少精力。同时，企业的内部审计和合规投资应与面临的关键风险保持一致，以最大化风险回报。五大风险领域医疗保健组织面临着五个最高的风险领域，内部审计和合规领导人在规划2024年时应对这些领域进行评估，并确保将其纳入考虑范围内。AI和新技术竞争网络安全和数据隐私财务业绩劳动力风险领域是指可能妨碍医疗保健组织在关键领域达成目标的能力。这些领域包括患者护理、合规、运营、战略增长和财务业绩。各个风险领域都严重破坏了医疗保健提供商组织的核心能力。而且，

1小时前 22:10 人工智能 AI 医疗保健 0