首个全球性的Sora类开源复现方案发布！所有训练细节和模型权重均公开展示

　　发布于2024-12-18　阅读（0）

扫一扫，手机访问

全球首个开源的类Sora架构视频生成模型，来了！

整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。

这就是刚刚发布的Open-Sora 1.0。

它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

亦或是延时摄影下的浩瀚星空。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

自Sora发布以来，由于其惊人的效果和技术细节的稀缺性，揭示和复现Sora已成为开发社区中最受关注的话题之一。例如，Colossal-AI团队推出了一项能够降低46%成本的Sora训练和推理复现流程。

短短两周时间后，该团队再次发布最新进展，复现类Sora方案，并将技术方案及详细上手教程在GitHub上免费开源。

那么问题来了，复现Sora如何实现？

Open-Sora 开源地址：https://github.com/hpcaitech/Open-Sora

全面解读Sora复现方案

Sora复现方案包括四个方面：

模型架构设计
训练复现方案
数据预处理
高效训练优化策略

模型架构设计

模型采用了Sora同源架构Diffusion Transformer (DiT) 。

它以采用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层，将其扩展到视频数据上。

具体来看，整个架构包括一个预训练好的VAE，一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。

其中，STDiT 每层的结构如下图所示。

它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。

与全注意力机制相比，这样的结构大大降低了训练和推理开销。

与同样使用空间-时间注意力机制的 Latte模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。

△STDiT结构示意图

整个模型的训练和推理流程如下。

据了解，在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。

在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声，与提示词嵌入(prompt embedding)一起输入到STDiT中，得到去噪之后的特征，最后输入到VAE的解码器，解码得到视频。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

△模型训练流程

训练复现方案

在训练复现部分，Open-Sora参考了Stable Video Diffusion (SVD)。

一共分为3个阶段：

大规模图像预训练。
大规模视频预训练。
高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。

相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

△训练方案三阶段

第一阶段是大规模图像预训练。

团队利用互联网上丰富的图像数据和文生图技术，先训练出一个高质量的文生图模型，将该模型作为下一阶段视频预训练的初始化权重。

同时，由于目前没有高质量的时空VAE，他们采用Stable Diffusion预训练好的图像VAE。

这样不仅能保障初始模型的优越性能，还能显著降低视频预训练的整体成本。

第二阶段是大规模视频预训练。

这一阶段主要增加模型的泛化能力，有效掌握视频的时间序列关联。

它需要使用大量视频数据训练，并且保障视频素材的多样性。

同时，第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。

Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化，以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。

△Open-Sora生成效果(提示词：水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋)

第三阶段是高质量视频数据微调。

据介绍，这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级，但是视频的时长、分辨率和质量都更高。

通过这种方式进行微调，能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

值得一提的是，Colossal-AI还详细透露了每阶段的资源使用情况。

在Open-Sora的复现流程中，他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours，约合7000美元，第三阶段的训练量是1920 GPU hours，大约4500美元。经过初步估算，整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动Sora复现预训练。

包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。

他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。

最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码，可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动Sora复现项目的技术门槛和前期准备。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

高效训练加持

除此之外，Colossal-AI团队还提供了训练加速方案。

通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。

同时，得益于Colossal-AI的异构内存管理系统，在单台服务器上（8H800）可以无阻碍地进行1分钟的1080p高清视频训练任务。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的DiT相比，随着帧数的增加，STDiT实现了高达5倍的加速效果，这在处理长视频序列等现实任务中尤为关键。

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

最后，团队还放出了更多Open-Sora的生成效果。

，时长00:25

团队和量子位透露，他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性。

实际应用方面，团队透露将推进在电影、游戏、广告等领域落地。

感兴趣的开发者们，可访问GitHub项目了解更多~

Open-Sora 开源地址：https://github.com/hpcaitech/Open-Sora

参考链接：

[1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers。

[2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis。

[3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets。

[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation。

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original。

[6]https://github.com/google-research/text-to-text-transfer-transformer。

[7]https://github.com/haotian-liu/LLaVA。

[8]https://hpc-ai.com/blog/open-sora-v1.0。

本文转载于：https://www.51cto.com/article/783974.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：苹果手机83%的电池更换建议介绍

下一篇：长安深蓝G318硬派SUV正式亮相，即将于5月上市达到新科技高度

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

小鹏P7i 702 Max鹏翼版正式上市，24.99万元起售挑战电动轿车市场

小鹏汽车P7i702Max鹏翼版于3月25日正式发布，售价定为24.99万元。这款新车型是在702Max长续航车型基础上打造的，最引人注目的地方在于其独特的“剪刀门”设计。这一设计不仅提升了车辆的时尚感，还为乘客进出车辆带来了全新体验。新车配备了强劲的动力系统，最大输出功率可达276马力，峰值扭矩达440Nm。搭载86.2千瓦时的电池，在CLTC工况下，续航里程可达702公里，为驾驶者带来稳定而持久的驾驶享受。除了出色的动力系统，小鹏P7i702Max鹏翼版在配置上也毫不逊色。从外观上看，新车提供了星暮紫

10分钟前小鹏汽车 0
正版软件

Yala：链接比特币流动性与生息稳定币

TL;DR比特币的最初设计优先考虑安全性和去中心化，而不是智能合约和DeFi应用程序等复杂功能。因此，Yala在Ordinals协议上创建一种模块化架构，同时集成去中心化索引器网络和Oracle，为比特币引入智能合约能力，从而发行稳定币$YU。基于这种模块化设计，$YU能够自由地参与任何链上的DeFi活动，从而释放比特币巨大的流动性。Yala的目标是为比特币建立一个模块化的DeFi收益聚合器，通过联邦投票索引器（最终建成完全去中心化索引器）以及带有阈值签名的比特币保险库等机制来确保安全性和去中心化，同时通

15分钟前 0
正版软件

比特币ETF结束连5日净流出！减半后币价无重大波动

本站(120btC.coM)：在比特币减半前夕，现货ETF结束了自12日以来的五日净流出，比特币减半后并没有明显波动，截稿前价格约64,172美元。比特币现货ETF终结连五日流出SoSoValue数据显示，比特币现货ETF结束自12日以来的五日净流出，4月19日总净流入为5,956万美元。各家ETF4月19日数据如下：灰度GBTC：-4580万美元贝莱德IBIT：2,930万美元富达FBTC：5,480万美元VanEck的HODL也有-180万的净流出。比特币现货ETF流量比特币自高点回撤近两成比特币近期

30分钟前稳定币比特币减半主流币莱特币减半 0
正版软件

数字货币哪些币种比较好

以下是最适合初学者的顶级数字货币：比特币(BTC)：去中心化、稀缺性、长期价值以太坊(ETH)：可编程区块链平台币安币(BNB)：交易平台代币卡尔达诺(ADA)：可扩展、高效的平台索拉纳(SOL)：高速、低成本的平台在选择币种时，需考虑市场份额、用例、技术、团队和社区，以及个人风险承受能力。

40分钟前 0
正版软件

btc钱包地址是什么类型钱包

BTC钱包地址是属于非托管钱包，用户完全控制自己的资金，对私钥保管负责。

55分钟前 0