生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

　　发布于2024-12-22　阅读（0）

扫一扫，手机访问

扩散模型在图像生成方面的色彩表现中发挥了作用，推动了生成式模型的新纪元。如Stable Diffusion、DALLE、Imagen、SORA等大模型如雨后春笋般涌现，进一步丰富了生成式AI的应用背景。然而，当前的扩散模型在理论上并非完美，鲜有研究关注到采样样本时段端点处未定义的奇点问题。此外，奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题，微信视觉团队与中山大学合作，联手探究了扩散模型中的奇点问题，并提出了一个即插即用的方法，有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题，显著提升了现有扩散模型的生成能力。这一研究成果已在CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功，包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设，即扩散过程的逆过程也符合高斯特性。然而，这一假设并没有得到充分证明。特别是在端点处，即 t=0 或 t=1，会出现奇点问题，限制了现有方法对奇点处采样的研究。

此外，奇点问题也会影响扩散模型的生成能力，导致模型出现平均灰度问题，即难以生成亮度强或者弱的图像，如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题，微信视觉团队与中山大学合作，从理论和实践两个方面展开了深入探究。首先，该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界，为后续研究提供了理论基础。基于这一理论保障，团队对奇点处的采样进行了研究，并得出了两个重要的结论：1）t=1 处的奇点可以通过求取极限转化为可去奇点，2）t=0 处的奇点是扩散模型的固有特性，不需要规避。基于这些结论，该团队提出了一个即插即用的方法：SingDiffusion，用于解决扩散模型在初始时刻采样的问题。

通过大量的实验验证明，仅需训练一次，SingDiffusion 模块即可无缝应用到现有的扩散模型中，显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下，SingDiffusion 能够显著提升当前方法的生成质量，特别是在应用于 Stable Diffusion 1.5（SD-1.5）后，其生成的图像质量更是提升了 33%。

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

论文地址：https://arxiv.org/pdf/2403.08381.pdf

项目地址：https://pangzecheung.github.io/SingDiffusion/

论文题目：Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性

为了研究扩散模型的奇点问题，需要验证全过程包含奇点处的逆过程满足高斯特性。首先定义生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题为扩散模型的训练样本，训练样本的分布可以表示为：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

其中 δ 表示狄拉克函数。根据 [1] 中连续时间扩散模型的定义，对于任意两个时刻 0≤s,t≤1，正向过程可以表示为：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

其中生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题，，，随着时间单调的从 1 变化到 0。考虑到刚刚定义的训练样本分布，的单时刻边际概率密度可以表示为：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

由此，可以通过贝叶斯公式计算逆过程的条件分布：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

然而，得到的分布是混合高斯分布，难以用网络进行拟合。因此，主流的扩散模型通常假设这一分布可以由单个高斯分布拟合：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

其中，生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题为了验证这一假设，该研究在 Proposition 1 中估计了这一拟合的误差。

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

然而，该研究发现当 t=1 时，随着 s 趋近 1，生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题也将趋近于 1，误差无法忽略。因此，Proposition 1 并不能证明 t=1 时的逆向高斯特性。为了解决这一问题，该研究给出了新的命题：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

根据 Proposition 2，当 t=1 时，随着 s 趋近 1，生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题将趋近于 0。由此，该研究证明了包含奇点时刻的逆过程全过程都符合高斯特性。

奇点时刻的采样

有了逆过程高斯特性的保证，该研究基于逆向采样公式对奇点时刻的采样展开了研究。

首先考虑 t=1 时刻的奇点问题。当 t=1 时，生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题 =0，下面的采样公式将出现分母除 0 的情况：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

研究团队发现，通过计算极限，该奇点可以转化为可去奇点：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

然而，这一极限无法在测试过程中进行计算。为此，该研究提出可以在 t=1 时刻拟合生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题，使用「x - 预测」，来解决的初始奇点处的采样问题。

接着考虑 t=0 时刻，高斯分布拟合的逆过程将变成方差为 0 的高斯分布，即狄拉克函数：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

其中生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题。这样的奇异性会使得采样过程收敛到正确的数据上。因此，t=0 处的奇点是扩散模型良好的性质，并不需要规避。

此外，该研究还在附录中探讨了 DDIM，SDE，ODE 中的奇点问题。

即插即用的 SingDiffusion 模块

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

奇点处的采样会影响扩散模型生成图像的质量。例如，在输入高或低亮度的提示时，现有方法往往只能生成平均灰度的图像，这被称为平均灰度问题。这个问题源于现有方法忽略了 t=0 时奇点处的采样，而是在 1-ϵ 时刻使用标准高斯分布作为初始分布进行采样。然而，正如上图所示，标准高斯分布与实际的 1-ϵ 时刻的数据分布存在较大的差距。

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

在这样的差距下，根据 Proposition 3，现有方法等同于在 t=1 时朝着一个均值为 0 的图像进行生成，即平均灰度图像。因此，现有方法难以生成亮度极强或极弱的图像。为了解决这个问题，该研究提出了一个即插即用的 SingDiffusion 方法，通过拟合标准高斯分布与实际数据分布之间的转换来弥补这一差距。

SingDiffuion 的算法如下图所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

根据上一节的结论，该研究在在 t=1 时刻使用了「x - 预测」方法来解决奇点处的采样问题。对于图-文数据对生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题，该方法训练了一个 Unet来拟合。损失函数表示为：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

模型收敛后，就可以按照下面的 DDIM 采样公式并使用新得到的模块生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题采样。

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

DDIM 的采样公式确保了生成的生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题符合 1-ε 时刻的数据分布，从而解决了平均灰度问题。在这一步骤之后，就可以使用预训练的模型执行后续的采样步骤，直到生成。值得注意的是，由于该方法仅参与第一步的采样，与后续的采样过程无关，因此 SingDiffusion 可以应用在绝大多数已有的扩散模型中。另外，为了避免无分类器指导操作导致的数据溢出问题，该方法还使用了以下的归一化操作：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

其中 guidance 表示无分类器指导操作后的结果，neg 表示负面提示下的输出，pos 表示正面提示下的输出，ω 表示指导强度。

实验

首先，该研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三个模型上验证了 SingDiffusion 解决平均灰度问题的能力。该研究选择了四个极端的提示，包括「纯白 / 黑背景」和「单色线条艺术标志在白 / 黑背景上」，作为条件进行生成，并计算生成图像的平均灰度值，如下表所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

从表格中可以看出，该研究能够显著地解决平均灰度值问题，生成符合输入文字描述亮度的图像。此外，该研究还可视化了在这四个提示语句下的生成结果，如下图所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

从图中可以看出，加入该方法后，现有的扩散模型能够生成偏黑或者偏白的图像。

为了进一步研究该方法对于图像质量的提升，该研究在 COCO 数据集上选择了 30,000 个描述进行了测试。首先，该研究展示了在不使用无分类器引导下，模型本身的生成能力，如下表所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

从表格中可以看出，所提出的方法能够显著降低生成图像的 FID，并提升 CLIP 指标。值得注意的是，在 SD-1.5 模型中，该论文中的方法相比于原模型在 FID 指标上降低了 33%。

进一步地，为了验证所提出方法在无分类器引导下的生成能力，该研究还在下图中展示了在不同引导大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲线：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

从图中可以看出，在相同的 CLIP 水平下，所提出的方法能够获得更低的 FID 数值，生成更逼真的图像。

此外，该研究还展示了所提出方法在不同 CIVITAI 预训练模型下的泛化能力，如下图所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

可以看出，该研究所提出的方法仅需进行一次训练，即可轻松地应用到已有的扩散模型中，解决平均灰度问题。

最后，该研究所提出的方法还能够无缝地应用到预训练的 ControlNet 模型上，如下图所示：

生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

从结果中可以看出，该方法能有效解决 ControlNet 的平均灰度问题。

本文转载于：https://www.51cto.com/article/784861.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：阿里1号AI「员工」上岗，007写代码助攻大厂程序员！炸掉祖传屎山代码，Java丝滑改Python

下一篇：华为nova Y71：星光设计与超长待机时间成为亮点

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

荣耀畅玩40C即将上市，配置与价格双优势引发期待

7月14日消息，荣耀畅玩40C即将在荣耀商城正式上市。根据官方披露，这款手机将于7月18日开始发货，售价为899元。荣耀畅玩40C提供墨玉青、幻夜黑和碧空蓝三种时尚配色，配备了一系列出色的功能和配置。荣耀畅玩40C拥有一块6.56英寸屏幕，分辨率为720×1612。该屏幕支持1670万色、70%NTSC色域和90Hz刷新率，同时搭载了“类自然光护眼”技术，可以模拟自然光的动态变化，减轻眼部疲劳，提升用户的视觉体验。在性能方面，荣耀畅玩40C搭载了高通骁龙480+处理器，其CPU频率为2*A76*2.2GH

53分钟前荣耀 0
正版软件

河北建新飞行汽车签署协议，获 Klein Vision AirCar 制造分销授权

根据BBC报道，据悉，河北建新飞行汽车近日与斯洛伐克企业KleinVision签署协议，获得后者AirCar飞行汽车在有限地理区域的制造和分销许可。双方并未透露最终交易金额。▲图源KleinVision官网AirCar是全球首款拿到适航许可的汽车，其采用宝马发动机和普通燃料，使用跑道进行起飞和降落，于2021年在斯洛伐克的两座机场之间进行了35分钟的城际试飞。AirCar概念车型包含多个版本，除了进行测试的双座款外还包括四座款、双引擎款和水陆两栖款。本站从KleinVision官网了解到，AirCar设计

1小时前 22:45 飞行汽车 AirCar 河北建新 0
正版软件

雪佛兰全新智能插电混动SUV“探界者Plus”即将登场

上汽通用汽车雪佛兰品牌最近宣布，将推出旗下首款智能插电混动SUV，名为“探界者Plus”。这款车实际上是探界者的国内版本，在海外市场已经取得成功。新车融合了雪佛兰全球最新设计理念，提供RS和ACTIV两种不同风格的内外饰设计，以迎合不同消费者的个性化需求。国产版在设计上与海外版保持了高度统一，整体线条硬朗，充满青春活力，符合当今市场审美趋势。根据小编的了解，RS和ACTIV两种版本在设计细节上各有特色。它们都配备了分体式大灯和独特的蜂窝状进气格栅。ACTIV版本的进气格栅更为宽大，采用全黑色调，突出了越野

1小时前 22:25 雪佛兰 0
正版软件

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

在许多实际应用中，物体姿态估计扮演着关键角色，比如在具身智能、机器人操作和增强现实等领域。在这一领域中，最先受到关注的任务是实例级别6D姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来研究热点逐步转向类别级别6D姿态估计，用于处理未见过的物体，但要求该物体属于已知的感兴趣类别。而零样本6D姿态估计是一种更具泛化性的任务设置，给定任意物体的CAD模型，旨在场景中检测出该目标物体，并估计其6D姿态。尽管其具有重要意义，这种零样本的任务设置在物体检测和

1小时前 22:10 工程 SAM-6D 0
正版软件

DifFlow3D：场景流估计新SOTA，扩散模型又下一城！

原标题：DifFlow3D:TowardRobustUncertainty-AwareSceneFlowEstimationwithIterativeDiffusion-BasedRefinement论文链接：https://arxiv.org/pdf/2311.17456.pdf代码链接：https://github.com/IRMVLab/DifFlow3D作者单位：上海交通大学剑桥大学浙江大学鉴智机器人论文思路：场景流估计旨在预测动态场景中每个点的3D位移变化，是计算机视觉领域的一个基础任务。然而，

1小时前 21:55 模型场景 0