Open-Sora全面开源，OpenAI尚未到来

　　发布于2024-12-18　阅读（0）

扫一扫，手机访问

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。

先睹为快，我们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。

没等来OpenAI，等来了Open-Sora全面开源

Open-Sora 1.0 生成的都市繁华掠影

这仅仅是 Sora 复现技术冰山的一角，关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo 展示和详细的上手教程，Colossal-AI 团队已经全面免费开源在 GitHub，同时笔者第一时间联系了该团队，了解到他们将不断更新 Open-Sora 的相关解决方案和最新动态，感兴趣的朋友可以持续关注 Open-Sora 的开源社区。

Open-Sora 开源地址：https://github.com/hpcaitech/Open-Sora

全面解读 Sora 复现方案

接下来，我们将深入探讨Sora复现方案的几个关键方面，包括模型架构设计、训练方法、数据预处理、模型效果展示以及优化训练策略。

模型架构设计

模型采用了目前火热的 Diffusion Transformer (DiT) [1] 架构。作者团队以同样使用 DiT 架构的高质量开源文生图模型 PixArt-α [2] 为基座，在此基础上引入时间注意力层，将其扩展到了视频数据上。具体来说，整个架构包括一个预训练好的 VAE，一个文本编码器，和一个利用空间 - 时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。其中，STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。与全注意力机制相比，这样的结构大大降低了训练和推理开销。与同样使用空间 - 时间注意力机制的 Latte [3] 模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。

没等来OpenAI，等来了Open-Sora全面开源

STDiT 结构示意图

整个模型的训练和推理流程如下。据了解，在训练阶段首先采用预训练好的 Variational Autoencoder (VAE) 的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入 (text embedding) 一起训练 STDiT 扩散模型。在推理阶段，从 VAE 的潜在空间中随机采样出一个高斯噪声，与提示词嵌入 (prompt embedding) 一起输入到 STDiT 中，得到去噪之后的特征，最后输入到 VAE 的解码器，解码得到视频。

没等来OpenAI，等来了Open-Sora全面开源

模型的训练流程

训练复现方案

我们向该团队了解到，Open-Sora 的复现方案参考了 Stable Video Diffusion (SVD)[3] 工作，共包括三个阶段，分别是：

大规模图像预训练。
大规模视频预训练。
高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。

没等来OpenAI，等来了Open-Sora全面开源

训练方案三阶段

第一阶段：大规模图像预训练

第一阶段通过大规模图像预训练，借助成熟的文生图模型，有效降低视频预训练成本。

作者团队向我们透露，通过互联网上丰富的大规模图像数据和先进的文生图技术，我们可以训练一个高质量的文生图模型，该模型将作为下一阶段视频预训练的初始化权重。同时，由于目前没有高质量的时空 VAE，他们采用了 Stable Diffusion [5] 模型预训练好的图像 VAE。该策略不仅保障了初始模型的优越性能，还显著降低了视频预训练的整体成本。

第二阶段：大规模视频预训练

第二阶段执行大规模视频预训练，增加模型泛化能力，有效掌握视频的时间序列关联。

我们了解到，这个阶段需要使用大量视频数据训练，保证视频题材的多样性，从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。Colossal-AI 团队使用了 PixArt-alpha [2] 的开源权重作为第二阶段 STDiT 模型的初始化，以及采用了 T5 [6] 模型作为文本编码器。同时他们采用了 256x256 的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。

第三阶段：高质量视频数据微调

第三阶段对高质量视频数据进行微调，显著提升视频生成的质量。

作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级，但是视频的时长、分辨率和质量都更高。通过这种方式进行微调，他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

作者团队表示，在 Open-Sora 的复现流程中，他们使用了 64 块 H800 进行训练。第二阶段的训练量一共是 2808 GPU hours，约合 7000 美元，第三阶段的训练量是 1920 GPU hours，大约 4500 美元。经过初步估算，整个训练方案成功把 Open-Sora 复现流程控制在了 1 万美元左右。

数据预处理

为了进一步降低 Sora 复现的门槛和复杂度，Colossal-AI 团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动 Sora 复现预训练，包括公开视频数据集下载，长视频根据镜头连续性分割为短视频片段，使用开源大语言模型 LLaVA [7] 生成精细的提示词。作者团队提到他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。最终得到的视频 / 文本对可直接用于训练。借助他们在 GitHub 上提供的开源代码，我们可以轻松地在自己的数据集上快速生成训练所需的视频 / 文本对，显著降低了启动 Sora 复现项目的技术门槛和前期准备。

没等来OpenAI，等来了Open-Sora全面开源

基于数据预处理脚本自动生成的视频 / 文本对

模型生成效果展示

下面我们来看一下 Open-Sora 实际视频生成效果。比如让 Open-Sora 生成一段在悬崖海岸边，海水拍打着岩石的航拍画面。

没等来OpenAI，等来了Open-Sora全面开源

再让 Open-Sora 去捕捉山川瀑布从悬崖上澎湃而下，最终汇入湖泊的宏伟鸟瞰画面。

没等来OpenAI，等来了Open-Sora全面开源

除了上天还能入海，简单输入 prompt，让 Open-Sora 生成了一段水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋。

没等来OpenAI，等来了Open-Sora全面开源

Open-Sora 还能通过延时摄影的手法，向我们展现了繁星闪烁的银河。

没等来OpenAI，等来了Open-Sora全面开源

如果你还有更多视频生成的有趣想法，可以访问 Open-Sora 开源社区获取模型权重进行免费的体验。链接：https://github.com/hpcaitech/Open-Sora

值得注意的是，作者团队在 Github 上提到目前版本仅使用了 400K 的训练数据，模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中，生成的乌龟多了一只脚。Open-Sora 1.0 也并不擅长生成人像和复杂画面。作者团队在 Github 上列举了一系列待做规划，旨在不断解决现有缺陷，提升生成质量。

高效训练加持

除了大幅降低 Sora 复现的技术门槛，提升视频生成在时长、分辨率、内容等多个维度的质量，作者团队还提供了 Colossal-AI 加速系统进行 Sora 复现的高效训练加持。通过算子优化和混合并行等高效训练策略，在处理 64 帧、512x512 分辨率视频的训练中，实现了 1.55 倍的加速效果。同时，得益于 Colossal-AI 的异构内存管理系统，在单台服务器上（8*H800）可以无阻碍地进行 1 分钟的 1080p 高清视频训练任务。

没等来OpenAI，等来了Open-Sora全面开源

此外，在作者团队的报告中，我们也发现 STDiT 模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的 DiT 相比，随着帧数的增加，STDiT 实现了高达 5 倍的加速效果，这在处理长视频序列等现实任务中尤为关键。

没等来OpenAI，等来了Open-Sora全面开源

欢迎持续关注 Open-Sora 开源项目：https://github.com/hpcaitech/Open-Sora

作者团队表示，他们将会继续维护和优化 Open-Sora 项目，预计将使用更多的视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性，切实推进 AI 技术在电影、游戏、广告等领域的落地。

参考链接：

[1] https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers。

[2] https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis。

[3] https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets。

[4] https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation。

[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original。

[6] https://github.com/google-research/text-to-text-transfer-transformer。

[7] https://github.com/haotian-liu/LLaVA。

[8] https://hpc-ai.com/blog/open-sora-v1.0。

本文转载于：https://www.51cto.com/article/783899.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：笔记本屏幕需要调亮

下一篇：数字生命计划启动：DeepMind模拟果蝇，网友疑问：下一个步骤是造人？

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

3月29日红魔电竞宇宙发布会：重磅手机、笔记本等新品即将揭幕

红魔电竞宇宙官方今日公布，2024年新品发布会将于3月29日上午10点举办。此次发布会备受关注，官方提前发布了多款新品的剪影，激发了广大电竞爱好者和科技迷的热情讨论。根据官方发布的剪影图片，我们可以清晰地看到几款新品的轮廓。从左至右依次为手机、游戏手柄、平板、散热器，而最中间的位置则留给了备受期待的笔记本产品。这一系列产品布局，不仅展现了红魔电竞宇宙在电竞硬件领域的全方位布局，也预示着其将为电竞市场带来一场全新的变革。据小编了解，红魔电竞宇宙此次发布会的新品阵容可谓强大。其中，手机产品有望搭载最新的处理器

7分钟前红魔 0
正版软件

奇瑞汽车：27年创新之路，从创业之初到全球领先

今年是奇瑞汽车迎来重要的27周年庆典。在过去的27年里，奇瑞从最初的简陋“小草房”起步，与其他中国汽车制造企业一道努力，共同推动中国成为全球最大的汽车出口国之一。这个里程碑标志着奇瑞在中国汽车行业的不懈努力和取得的成就，展现了中国汽车制造业的巨大发展潜力。奇瑞的创业历程可谓充满了挑战与困难。1997年，在安徽省芜湖市，尹同跃创立了奇瑞汽车的前身——安徽汽车零部件有限公司。在那个时候，资金短缺、人才匮乏、技术瓶颈、市场认可度低以及政府政策的限制等问题都困扰着初创的奇瑞。然而，尹同跃和他的团队以坚定的决心和毅

22分钟前奇瑞 0
正版软件

vivo TWS 4系列耳机：采用陶瓷钨振膜及AI降噪技术，革新音频体验

vivo宣布，将在3月26日晚19:00举办新品发布会。届时，除了备受瞩目的vivoXFold3系列手机外，还将推出全新的TWS4系列耳机。据官方透露，vivoTWS4耳机首次采用了创新的陶瓷钨原声振膜，这款独特的振膜设计旨在为用户提供卓越的音频体验。它的高频再现能力出色，几乎消除了谐振失真，同时拥有优异的瞬态响应。在高温环境下，它的声学稳定性同样表现出色，而耐磨耐腐的特性更是保证了其长久的使用寿命。vivo宣称，这一创新对于TWS系列耳机来说具有里程碑意义。此外，据小编了解，vivoTWS4Hi-Fi版

37分钟前 vivo 0
正版软件

三星电机计划年内量产创新的全天候车规摄像头模组

三星电机今日宣布推出名为“全天候”车规摄像头模组，该模组结合了创新的防水涂层和高效加热功能，旨在解决汽车摄像头在各种恶劣天气条件下的使用挑战。三星电机计划在今年内开始批量生产这一产品。据三星电机介绍，这款“全天候”摄像头模组采用了独特的防水涂层技术，被誉为“世界性能最高的防水涂层”。这种涂层能够显著减少水滴与镜头表面的接触面积，使水滴在接触到镜头时迅速滑落，从而确保摄像头在任何天气条件下都能保持清晰的视野。与传统的防水涂层相比，三星电机的专有材料技术使得这款防水涂层的镜片使用寿命延长了约6倍，并且在防止灰

52分钟前三星 0
正版软件

长安深蓝G318硬派SUV正式亮相，即将于5月上市达到新科技高度

长安汽车旗下深蓝汽车的首款中大型SUVG318在深蓝超级增程进化日活动中亮相。这款备受称赞的“科技新硬派”车型，将硬派设计与科技完美结合，预计将于5月与消费者见面。虽然售价尚未公布，但已引起市场和消费者的广泛关注。G318的整体设计充满了硬朗的气息，无论是车顶的行李架与射灯一体化设计，还是粗犷的外观拓展部件，都彰显了其不凡的越野能力。据小编了解，该车的静态下载重达到了300KG，动态载重也可达到80KG，为户外探险和长途旅行提供了强大的装载能力。此外，侧开尾门和“小书包”外挂备胎的设计也使得其在实用性上更

1小时前 16:50 长安深蓝 0