发布于2024-12-10 阅读(0)
扫一扫,手机访问
尽管大型模型在计算机视觉和图形学中扮演着重要角色,但令人惊讶的是,分层内容生成和透明图像的领域却鲜少受到关注。这与实际市场需求形成了明显的反差。许多视觉内容编辑软件和工作流程都是基于图层的,它们严重依赖透明或分层元素来组合和创作内容。
斯坦福大学的研究人员提出了一种名为“latent transparency(潜在透明度)”的方法,这种方法使得经过大规模预训练的潜在扩散模型能够生成具有透明效果的图像以及多个透明图层。
以一种透明度的方式,该研究提出的方法能够生成多个图层,例如对于给定的文本提示(如头发凌乱的女人,在卧室里)。这意味着该模型不仅可以根据提示生成图像,还能够将前景和背景进行分层处理。此外,它能够很好地补充丢失的背景信息,提升图像的完整性和逼真度。
此外,本文还采用人机交互的方式来训练模型框架并同时收集数据,最终数据集的规模达到 100 万张透明图像,涵盖多种内容主题和风格。然后,该研究将数据集扩展到多图层样本。该数据集不仅可以训练透明图像生成器,还可以用于不同的应用,例如背景 / 前景条件生成、结构引导生成、风格迁移等。
研究结果显示,绝大多数用户(达到97%)更倾向于使用本文方法生成的透明内容,而非之前的解决方案,比如先生成然后抠图。研究者将生成的质量与商业网站如Adobe Stock的搜索结果进行了比较,取得了令人满意的成果。
这项研究作者共有两位 Lvmin Zhang 以及 Maneesh Agrawala ,其中 Lvmin Zhang 还是 ContorlNet 的作者。
有一位网友指出:“生成透明图层的重要性远不止于抠图。在现今的动画和视频制作中,这是至关重要的步骤之一。只要这一步做得好,SD一致性就不再是难题。”
本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜在扩散模型添加透明度支持,这些模型通常使用一个潜在编码器(VAE)将 RGB 图像转换为潜在图像,然后再将其输入到扩散模型中。在此过程中,VAE 和扩散模型应共享相同的潜在分布,因为任何重大不匹配都可能显著降低潜在扩散框架的推理 / 训练 / 微调性能。
潜在透明度:当调整潜在空间以支持透明度时,必须尽可能保留原始的潜在分布。这个看似不明确的目标可以通过一个直接的测量来确定:可以检查修改后的潜在分布被原始预训练的冻结潜在解码器解码的如何 —— 如果解码修改后的潜在图像创建了严重的人工痕迹,那么潜在分布就是不对齐或损坏的。这一过程可视化结果如下图所示:
生成多个图层:该研究进一步使用注意力共享和 LoRA 将基础模型扩展为多图层模型,如图 3-(b) 所示。图 3-(a) 为训练可视化结果。
图 4 引入了几种替代架构,以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道,并使用 VAE(有或没有潜在透明度)将前景、背景或图层组合编码为条件,并训练模型生成前景或背景(例如,图 4-( b,d)),或直接生成混合图像(例如,图 4-(a,c))。
数据准备及其训练细节
训练数据集包括基础数据集(图 5-(a))以及多图层数据集 (5-(b)) 。
训练设备为 4 × A100 80G NV-link,整个训练时间为一周(为了减少预算,在人工收集下一轮优化数据时暂停训练),实际 GPU 时间约为 350 A100 小时。该方法适合个人规模或实验室规模的研究,因为 350 个 GPU 小时预算通常在 1K 美元内。
实验
图 6 展示了使用单图像基础模型生成的图像定性结果。这些结果展示了该模型可以生成原生透明图像,如生成高质量的玻璃透明度、头发、毛发、发光、火焰、魔法等效果。这些结果还证明了该模型可以泛化到不同的场景。
图 7 展示了使用具有不同主题的提示来生成图片的定性结果。每个示例会显示混合图像和两个输出层。这些图层不仅在照明和几何关系方面保持一致,而且还展示了稳定扩散的美学品质(例如,背景和前景的颜色选择,看起来和谐且美观)。
条件层生成。研究者在图 8 中展示了条件层生成结果(即以前景为条件的背景生成和以背景为条件的前景生成)。可以看到,本文的模型可以生成具有一致几何和照明效果的连贯构图。在「教堂中悬挂的灯泡」示例中,该模型尝试通过一种对称性审美设计来匹配前景。而在「坐在长登上或坐在沙发上」示例中,该模型可以推断前景和背景之间的交互,并生成相应的几何。
迭代生成。如图 9 所示,研究者可以迭代使用以背景为条件的前景生成模型,以实现构图或任意数量的层。对于每个新的层,他们将之前生成的所有层融入到一个 RGB 图像,并馈入到以背景为条件的前景模型。研究者还观察到,该模型能够在背景图像的上下文中解释自然语言,比如在一只猫的面前生成一本书。该模型展现了强大的几何构图能力,比如生成一个人坐在箱子上的组合图像。
可控生成。如图 10 所示,研究者展示了 ControlNet 等现有可控模型可以用于他们的模型,以提供丰富的功能。可以看到,本文的模型可以基于 ControlNet 信号来保留全局结构,以生成具有一致照明效果的和谐构图。研究者也通过一个「反射球」示例展示了本文的模型可以与前景和背景的内容进行交互,从而生成反光等一致性照明效果。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店