商城首页欢迎来到中国正版软件门户

文章教程　|　产品大全　|　软件问答

您的位置：首页 > 业界资讯 >ControlNet的最新作品：通过百万数据训练，AI图像生成进入图层设计阶段

ControlNet的最新作品：通过百万数据训练，AI图像生成进入图层设计阶段

　　发布于2024-12-10　阅读（0）

扫一扫，手机访问

尽管大型模型在计算机视觉和图形学中扮演着重要角色，但令人惊讶的是，分层内容生成和透明图像的领域却鲜少受到关注。这与实际市场需求形成了明显的反差。许多视觉内容编辑软件和工作流程都是基于图层的，它们严重依赖透明或分层元素来组合和创作内容。

斯坦福大学的研究人员提出了一种名为“latent transparency（潜在透明度）”的方法，这种方法使得经过大规模预训练的潜在扩散模型能够生成具有透明效果的图像以及多个透明图层。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

论文地址：https://arxiv.org/pdf/2402.17113.pdf
论文标题：Transparent Image Layer Diffusion using Latent Transparency

以一种透明度的方式，该研究提出的方法能够生成多个图层，例如对于给定的文本提示（如头发凌乱的女人，在卧室里）。这意味着该模型不仅可以根据提示生成图像，还能够将前景和背景进行分层处理。此外，它能够很好地补充丢失的背景信息，提升图像的完整性和逼真度。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

此外，本文还采用人机交互的方式来训练模型框架并同时收集数据，最终数据集的规模达到 100 万张透明图像，涵盖多种内容主题和风格。然后，该研究将数据集扩展到多图层样本。该数据集不仅可以训练透明图像生成器，还可以用于不同的应用，例如背景 / 前景条件生成、结构引导生成、风格迁移等。

研究结果显示，绝大多数用户（达到97%）更倾向于使用本文方法生成的透明内容，而非之前的解决方案，比如先生成然后抠图。研究者将生成的质量与商业网站如Adobe Stock的搜索结果进行了比较，取得了令人满意的成果。

这项研究作者共有两位 Lvmin Zhang 以及 Maneesh Agrawala ，其中 Lvmin Zhang 还是 ContorlNet 的作者。

有一位网友指出：“生成透明图层的重要性远不止于抠图。在现今的动画和视频制作中，这是至关重要的步骤之一。只要这一步做得好，SD一致性就不再是难题。”

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

方法介绍

本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜在扩散模型添加透明度支持，这些模型通常使用一个潜在编码器（VAE）将 RGB 图像转换为潜在图像，然后再将其输入到扩散模型中。在此过程中，VAE 和扩散模型应共享相同的潜在分布，因为任何重大不匹配都可能显著降低潜在扩散框架的推理 / 训练 / 微调性能。

潜在透明度：当调整潜在空间以支持透明度时，必须尽可能保留原始的潜在分布。这个看似不明确的目标可以通过一个直接的测量来确定：可以检查修改后的潜在分布被原始预训练的冻结潜在解码器解码的如何 —— 如果解码修改后的潜在图像创建了严重的人工痕迹，那么潜在分布就是不对齐或损坏的。这一过程可视化结果如下图所示：

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

生成多个图层：该研究进一步使用注意力共享和 LoRA 将基础模型扩展为多图层模型，如图 3-(b) 所示。图 3-(a) 为训练可视化结果。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

图 4 引入了几种替代架构，以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道，并使用 VAE（有或没有潜在透明度）将前景、背景或图层组合编码为条件，并训练模型生成前景或背景（例如，图 4-( b，d）），或直接生成混合图像（例如，图 4-（a，c））。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

数据准备及其训练细节

训练数据集包括基础数据集（图 5-(a)）以及多图层数据集（5-(b)）。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

训练设备为 4 × A100 80G NV-link，整个训练时间为一周（为了减少预算，在人工收集下一轮优化数据时暂停训练），实际 GPU 时间约为 350 A100 小时。该方法适合个人规模或实验室规模的研究，因为 350 个 GPU 小时预算通常在 1K 美元内。

实验

图 6 展示了使用单图像基础模型生成的图像定性结果。这些结果展示了该模型可以生成原生透明图像，如生成高质量的玻璃透明度、头发、毛发、发光、火焰、魔法等效果。这些结果还证明了该模型可以泛化到不同的场景。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

图 7 展示了使用具有不同主题的提示来生成图片的定性结果。每个示例会显示混合图像和两个输出层。这些图层不仅在照明和几何关系方面保持一致，而且还展示了稳定扩散的美学品质（例如，背景和前景的颜色选择，看起来和谐且美观）。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

条件层生成。研究者在图 8 中展示了条件层生成结果（即以前景为条件的背景生成和以背景为条件的前景生成）。可以看到，本文的模型可以生成具有一致几何和照明效果的连贯构图。在「教堂中悬挂的灯泡」示例中，该模型尝试通过一种对称性审美设计来匹配前景。而在「坐在长登上或坐在沙发上」示例中，该模型可以推断前景和背景之间的交互，并生成相应的几何。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

迭代生成。如图 9 所示，研究者可以迭代使用以背景为条件的前景生成模型，以实现构图或任意数量的层。对于每个新的层，他们将之前生成的所有层融入到一个 RGB 图像，并馈入到以背景为条件的前景模型。研究者还观察到，该模型能够在背景图像的上下文中解释自然语言，比如在一只猫的面前生成一本书。该模型展现了强大的几何构图能力，比如生成一个人坐在箱子上的组合图像。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

可控生成。如图 10 所示，研究者展示了 ControlNet 等现有可控模型可以用于他们的模型，以提供丰富的功能。可以看到，本文的模型可以基于 ControlNet 信号来保留全局结构，以生成具有一致照明效果的和谐构图。研究者也通过一个「反射球」示例展示了本文的模型可以与前景和背景的内容进行交互，从而生成反光等一致性照明效果。

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

本文转载于：https://www.51cto.com/article/782704.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：优化代码质量：掌握接口与抽象类的技巧

下一篇：利用接口和抽象类实现可扩展性的 Java 高级编程技巧

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

AIxiv专栏是本站发布学术、技术内容的栏目。过去几年，本站AIxiv专栏接收报道道约2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道邮箱。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。近期，多模态大模型（MLLM）在文本中心的VQA领域取得了显著进展，尤其是多个闭源模型，例如：GPT4V和Gemini，甚至在某些方面展现了超越人类能力的表现。但是，开源模型的性

8分钟前工程 Square 0
正版软件

数字货币转账多久到账

数字货币转账到账时间取决于区块链速度、确认次数、网络拥堵、矿工费用和平台差异，一般情况下：BTC：15-60分钟，ETH：10-30分钟，LTC：10-25分钟，XRP：几秒钟，DOGE：10-30分钟。

22分钟前 0
正版软件

如何查询以太坊最新价格？

以太坊(ETH)最新价格可通过可靠的价格查询网站或应用程序查询：1.选择一个网站（如CoinMarketCap、Coindesk或币安）；2.搜索ETH；3.查看最新价格。如何查询以太坊最新价格？以太坊（ETH）是一种去中心化的开源区块链平台，它使用其以太币(ETH)加密货币作为平台的原生代币。以太坊是继比特币(BTC)之后第二大加密货币，也是市值最大的山寨币。要查询以太坊的最新价格，您可以遵循以下步骤：选择一个可靠的价格查询网站或应用程序。一些常用的价格查询网站包括：CoinMarketCap:http

38分钟前 0
正版软件

tp钱包添加代币合约地址

如何添加合约地址：打开TP钱包，输入代币合约地址、名称、符号和类型。点击“添加代币”，合约地址识别代币，名称和符号标识代币，类型表示可替换（ERC-20）或不可替换（ERC-721）代币。

52分钟前 0
正版软件

特斯拉新政策：星空灰车漆免费选，Model Y全系涨价

特斯拉在今日通过其官方微博宣布了一项新政策：自4月起，原本需要额外支出1.2万元的星空灰车漆，现在将免费提供。这一消息已经得到了特斯拉官网的确认，并非愚人节笑。在新政策下，星空灰配色正式成为特斯拉的免费选项，然而，原本免费的“纯黑色”车漆现在却需要加价8000元。这一调整无疑将对消费者的购车选择产生一定影响。根据特斯拉中国官网的最新信息，ModelY的全系车型进行了售价上调。根据特斯拉中国官网的最新消息，ModelY的基础版售价已经上调至263,900元，长续航版的售价调整为304,900元，而高性能版的

1小时前 04:40 特斯拉 0

最新发布

1

阿里追捧的中台，“热度”退了？

1864天前
2

Overture设置踏板标记的方法

1701天前
3

思杰马克丁取得CleanMyMac中国区独家发行授权

1691天前
4

IBM：20万台Mac让公司职工在工作中更快乐更多产

1889天前
5

报道称微软一直在悄然游说反对“维修权”立法！

1855天前
6

美国怀疑华为窃取商业机密华为：身正不怕影子斜

1851天前
7

三星被曝正与联发科接洽 A系列手机有望搭载其5G芯片

1866天前
8

环球墨非完成千万级融资联合企业集团投资

1887天前
9

EasyRecovery恢复移动设备中的数据前需要注意什么

1688天前

相关推荐

热门关注

Xshell 6 简体中文

￥899.00-￥1149.00
DaVinci Resolve Studio 16 简体中文

￥2550.00-￥2550.00
Camtasia 2019 简体中文

￥689.00-￥689.00
Luminar 3 简体中文

￥288.00-￥288.00
Apowersoft 录屏王简体中文

￥129.00-￥339.00

网站备案号：湘ICP备19013367号-1 联系邮箱：admin@zhengruan.com
Copyright ©2018-2020