稳定AI发布最新开源版本：引入视频扩散模型生成3D内容，提升质量一致性，支持4090特性

　　发布于2024-12-19　阅读（0）

扫一扫，手机访问

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

Stable Video Diffusion (SVD)是Stability AI之前发布的一个用于生成高分辨率视频的模型。SV3D的问世标志着视频扩散模型首次被成功运用到3D生成领域。

官方表示，基于此，SV3D大大提高了3D生成的质量和视图一致性。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个Stability AI会员~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型，SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D：

SV3D_u：基于单张图像生成轨道视频。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

SV3D_p：扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成3D模型的质量和一致性。

同时，SV3D引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

具体到架构方面，SV3D包含以下关键组成部分：

UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer模块。
条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
相机轨迹编码：SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

此外，SV3D在生成过程中采用CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D，图像分辨率为575×576，视场角为33.8度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在4个节点上训练了6天左右，每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成（NVS）和3D重建方面，SV3D超过了现有其他方法，达到SOTA。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

从定性比较的结果来看，SV3D生成的多视角试图，细节更丰富，更接近与原始输入图像。也就是说，SV3D在理解和重构物体的3D结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

这样的成果，引发了不少网友的感慨：

可以想象，在未来6-12个月内，3D生成技术将会被用到游戏和视频项目中。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

评论区也总少不了一些大胆的想法……

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

并且项目开源嘛，已经有第一波小伙伴玩上了，在4090上就能跑起来。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

参考链接：
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

本文转载于：https://www.51cto.com/article/784101.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：由浅入深：探讨Spring Data中的数据持久化

下一篇：Python 瞭然：与操作系统合谋，创造卓越

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Solend创始人复盘ezETH脱锚：如何应对LST风险？

编译：Felix,PANews近日，因Renzo的代币经济学过于“中心化”引发加密社区争议，RenzoLRT代币ezETH遭大量抛售导致脱锚。Solend创始人Rooter针对此事在X平台发文，对此事件进行了发声。以下为内容全文：此事并不是什么黑天鹅事件。而且也不算是尾部事件。这一点上，LST脱锚司空见惯的，几乎每隔几周就会发生一次。以下会介绍了该事件的始末、为什么好的交易会变坏，以及应如何应对LST风险。ezETH是RenzoProtocol的流动性再质押代币(LRT)，也是积分的“吸铁石”，允许矿工累

8分钟前 0
正版软件

pyr币是否值得投资

Pyr币值得投资，但应谨慎。Pyr币是一种低交易费、快速交易的可扩展加密货币，具有交易、质押和治理用例。不过，其波动性、竞争和低采用率也存在风险。在投资前，应考虑风险承受能力、研究和长期投资策略。

13分钟前 0
正版软件

TechInsights报告：全球智能手机出货量反弹市场格局生变

5月7日消息显示，根据市场研究机构TechInsights最新发布的报告，2024年第一季度全球智能手机市场呈现出积极的增长态势，出货量同比反弹10%，总量达到2.95亿部。这一数据再次证明了全球智能手机市场的复苏势头，各大厂商也积极调整战略，以应对市场变化。在全球智能手机市场上，三星仍然保持着领先地位，出货量约为6000万部，市场份额达到20%。尽管去年同期出货量微降1%，但三星在北美、中东欧和中东非洲等地区的强劲表现，成功弥补了西欧和亚太地区的波动。其中，三星S24系列智能手机的热销，尤其是Ultra

28分钟前 0
正版软件

比特币减半前的暴跌

减半前暴跌是由于获利回吐、不确定性和技术因素造成的，这会导致价格波动性、影响市场情绪并增加交易量。尽管如此，历史数据表明，减半后通常会出现反弹，因为供应减少会长期提振价格。

43分钟前 0
正版软件

uni币减半时间

UniSwap的第一个减半时间为2023年4月30日，届时UNI挖矿奖励将从每区块4UNI减半到每区块2UNI，流通供应的增长速度减慢，可能会影响UNI价格的供需关系和波动。

58分钟前 0