字节跳动发布 SDXL-Lightning，适用于 1024 分辨率的高效模型

　　发布于2024-12-04　阅读（0）

扫一扫，手机访问

模型｜https://huggingface.co/ByteDance/SDXL-Lightning

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

1、闪电般的图片生成

生成式 AI 正凭借其根据文本提示（text prompts）创造出惊艳图像乃至视频的能力，赢得全球的瞩目。当前最先进的生成模型依赖于扩散过程（diffusion），这是一个将噪声逐步转化为图像样本的迭代过程。这个过程需要耗费巨大的计算资源并且速度较慢，在生成高质量图像样本的过程中，单张图像的处理时间约为 5 秒，其中通常需要多次（20 到 40 次）调用庞大的神经网络。这样的速度限制了有快速、实时生成需求的应用场景。如何在提升生成质量的同时加快速度，是当前研究的热点领域，也是我们工作的核心目标。

SDXL-Lightning 通过一种创新技术——渐进式对抗蒸馏（Progressive Adversarial Distillation）——突破了这一障碍，实现了前所未有的生成速度。该模型能够在短短 2 步或 4 步内生成极高质量和分辨率的图像，将计算成本和时间降低十倍。我们的方法甚至可以在 1 步内为超时敏感的应用生成图像，虽然可能会稍微牺牲一些质量。

SDXL-Lightning 不仅具有速度优势，而且在图像质量方面表现出色，在评估中超越了先前的加速技术。它能够实现更高的分辨率和更丰富的细节，同时保持良好的多样性和图文匹配度。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

速度对比示意

原始模型（20 步），SDXL-Lightning 模型（2 步）

2、模型效果

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多，图像质量越好。

以下是 4 步生成结果——

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A girl smiling

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A fish on a bicycle, colorful art

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A close-up of an Asian lady with sunglasses

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A beautiful cup

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Mona Lisa, sketch

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A panda swimming

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

House in the desert, surreal landscapes

以下是 2 步生成结果——

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Furniture design for a living room

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A cinematic shot of a baby raccoon wearing an intricate Italian priest robe

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A dog with soft fur and bright eyes jumping after a toy, in a cozy living room

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A tea cup containing clouds

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A family, medium shot

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Baby playing with toys in the snow

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

An old man and a dog are walking in the park

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

Dragon driving a car

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

A monkey making latte art

与以前的方法（Turbo 和 LCM）相比，我们的方法生成的图像在细节上有显著改进，并且更忠实于原始生成模型的风格和布局。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

3、回馈社区，开放模型

开源开放的浪潮已经成为推动人工智能迅猛发展的关键力量，字节跳动也自豪地成为这股浪潮的一部分。我们的模型基于目前最流行的文字生成图像开放模型 SDXL，该模型已经拥有一个繁荣的生态系统。现在，我们决定将 SDXL-Lightning 开放给全球的开发者、研究人员和创意从业者，以便他们能访问并运用这一模型，进一步推动整个行业的创新和协作。

在设计 SDXL-Lightning 时，我们就考虑到与开放模型社区的兼容。社区中已有众多艺术家和开发者创建了各种各样的风格化图像生成模型，例如卡通和动漫风格等。为了支持这些模型，我们提供 SDXL-Lightning 作为一个增速插件，它可以无缝地整合到这些多样风格的 SDXL 模型中，为各种不同模型加快图像生成的速度。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相结合，实现极速可控的图片生成。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也支持开源社区里目前最流行的生成软件 ComfyUI，模型可以被直接加载来使用：

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

4、关于技术细节

从理论上来说，图像生成是一个由噪声到清晰图像的逐步转化过程。在这一过程中，神经网络学习在这个转化流（flow）中各个位置上的梯度。

生成图像的具体步骤是这样的：

首先我们在流的起点，随机采样一个噪声样本，接着用神经网络计算出梯度。根据当前位置上的梯度，我们对样本进行微小的调整，然后不断重复这一过程。每一次迭代，样本都会更接近最终的图像分布，直至获得一张清晰的图像。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

图：生成流程（图片来自：https://arxiv.org/abs/2011.13456）

由于生成流复杂且非直线，生成过程必须一次只走一小步以减少梯度误差累积，所以需要神经网络的频繁计算，这就是计算量大的原因。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

图：曲线流程（图片来自：https://arxiv.org/abs/2210.05475）

为了减少生成图像所需的步骤数量，许多研究致力于寻找解决方案。一些研究提出了能减少误差的采样方法，而其他研究则试图使生成流更加直线化。尽管这些方法有所进展，但它们仍然需要超过 10 个推理步骤来生成图像。

另一种方法是模型蒸馏，它能够在少于 10 个推理步骤的情况下生成高质量图像。不同于计算当前流位置下的梯度，模型蒸馏改变模型预测的目标，直接让其预测下一个更远的流位置。具体来说，我们训练一个学生网络直接预测老师网络完成了多步推理后的结果。这样的策略可以大幅减少所需的推理步骤数量。通过反复应用这个过程，我们可以进一步降低推理步骤的数量。这种方法被先前的研究称之为渐进式蒸馏。

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

图：渐进式蒸馏，学生网络预测老师网络多步后的结果

在实际操作中，学生网络往往难以精确预测未来的流位置。误差随着每一步的累积而放大，导致在少于 8 步推理的情况下，模型产生的图像开始变得模糊不清。

为了解决这个问题，我们的策略是不强求学生网络精确匹配教师网络的预测，而是让学生网络在概率分布上与教师网络保持一致。换言之，学生网络被训练来预测一个概率上可能的位置，即使这个位置并不完全准确，我们也不会对它进行惩罚。这个目标是通过对抗训练来实现的，引入了一个额外的判别网络来帮助实现学生网络和教师网络输出的分布匹配。

这是我们研究方法的简要概述。在技术论文（https://arxiv.org/abs/2402.13929）中，我们提供了更深入的理论分析、训练策略以及模型的具体公式化细节。

5、SDXL-Lightning 之外

尽管本研究主要探讨了如何利用 SDXL-Lightning 技术进行图像生成，但我们所提出的渐进式对抗蒸馏方法的应用潜力不局限于静态图像的范畴。这一创新技术也可以被运用于快速且高质量生成视频、音频以及其他多模态内容。我们诚挚邀请您在 HuggingFace 平台上体验 SDXL-Lightning，并期待您宝贵的意见和反馈。

模型：https://huggingface.co/ByteDance/SDXL-Lightning

论文：https://arxiv.org/abs/2402.13929

本文转载于：https://www.51cto.com/article/781960.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：揭秘Python Lambda表达式的神秘威力

下一篇：PyCharm配置指南：优化Python开发效率！

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

长安马自达全新轿车预告亮相，贯穿式尾灯抢眼

4月13日消息，长安马自达再次发布了其全新轿车的预告图，这款备受期待的新车型以独特的设计风格和先进的电动技术吸引了广大消费者的关注。预告图中，我们可以清晰地看到，新车的尾部设计别具一格，采用了贯穿式尾灯，内部光源以点阵式排列，显得既时尚又科技。车尾部还配备了一个小尺寸的后扰流板，将马自达LOGO巧妙地设置在尾灯中下方，既彰显了品牌身份，又增加了车尾的视觉层次感。此前，有媒体报道称，这款新车或被命名为“MAZDAEZ-6”，并有望在本月即将开幕的北京车展期间首发亮相。据了解，这款车型是马自达与长安汽车联合开

7分钟前 0
正版软件

索尼 Xperia 1 VI 全新曝光：6.5英寸屏幕搭配独特设计

4月12日消息，最新消息显示知名爆料者@OnLeaks公开了索尼Xperia1VI手机的高清渲染图，展示了这款手机的一些关键特性。据悉，新款Xperia1VI采用了6.5英寸屏幕，其整体设计风格与去年的Xperia1V颇为相似。从曝光的渲染图中，我们可以看到索尼Xperia1VI的独特设计。机身背面装备了3个摄像头，同时保留了传统的耳机端口，这一设计在当下越来越少见，无疑会增加一些用户的便利性。此外，手机侧面依然有专门的拍照快捷按钮，这一设计也是索尼手机的独特之处，能为用户提供更快捷的拍照体验。索尼Xpe

17分钟前索尼 0
正版软件

东风日产大放送，轩逸・经典舒适版降价至6.98万

2022年4月21日消息，东风日产官方宣布，旗下热销车型轩逸"舒适版"推出限时特惠活动。从4月20日至6月6日，这款车型的售价大幅下调至36.98万元，并且还提供首付仅需1.99万元、日供低至33元的金融政策，为消费者提供更为灵活的购车方案。此次特惠活动是为了回应市场需求的调整，并希望通过更优惠的价格吸引更多消费者购车。东风日产表示，轩逸"舒适版"作为中级车市场的主力产品，一直以来都备受消费者的喜爱。此次限时特惠将更加满足购车者的需求，希望能够推动销量增长。轩逸"舒根据了解，轩逸・经典系列包含舒适版、豪华

32分钟前东风日产 0
正版软件

苹果visionOS 1.1更新：Apple Vision Pro头显迎来WebXR自然交互体验

苹果近日发布了visionOS1.1系统更新，为AppleVisionPro头显带来了更高质量的Persona人物化身功能和企业级支持。这次更新还在沉浸式网页体验方面有显著进步，为用户提供更加引人注目的体验。此前，据UploadVR网站报道，VisionPro上的Safari浏览器在WebXR功能方面一直缺乏关键的交互方式，这在很大程度上限制了用户体验。然而，随着visionOS1.1版本的发布，Safari的WebXR体验将全面支持VisionPro默认的注视-捏合的自然交互方式，从而为用户提供更为直观

46分钟前苹果 0
正版软件

比亚迪入选《时代周刊》全球最具影响力100家公司榜单，再次彰显实力！

6月23日消息，美国《时代周刊》近日发布了第三届2023年全球最具影响力100家公司榜单，评选出了本年度最有影响力的100家企业。在这份榜单中，中国汽车制造商比亚迪再次脱颖而出，连续三年入选，展现了其全球影响力的持续增强。比亚迪被评选为全球最具影响力公司之一，尽管在美国大多数人并不熟悉这个名字。然而，这家总部位于深圳的公司在全球53个国家和地区开展业务，在中国这个全球最大的汽车市场更是占据了电动或混合动力汽车销量的39%。它是世界上最重要的汽车制造商之一，正在以稳定的步伐走向全球舞台。比亚迪的市值已经达到

1小时前 16:20 比亚迪 0