VAST、港大、清华研究利用无训练数据生成3D模型的新理论

　　发布于2024-11-26　阅读（0）

扫一扫，手机访问

无需任何训练数据，只需对着模型描述一句话，如「一个做作业的香蕉人」：

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

或是「一只戴着 VR 眼镜的猫」：

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

该工具可以生成带有高质量纹理贴图的 3D 场景，并且能对现有的 3D 模型进行精细化贴图。

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

这是由港大与清华大学合作开发的一种新方法，名为VAST AI，它能够直接从复杂的文本描述中生成高质量、富有想象力的3D模型。

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

这项研究成果已被ICLR 2024收录，代码也已开源。有兴趣的朋友可以查看项目主页和论文地址。

论文地址：https://arxiv.org/abs/2310.19415
项目地址：https://xinyu-andy.github.io/Classifier-Score-Distillation
代码地址：https://github.com/CVMI-Lab/Classifier-Score-Distillation
论文标题：Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的？在了解新方法是什么之前，我们先来了解目前已有的方法存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中，高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本领域的大量高质量数据做训练，但在 3D 领域，这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。

基于 2D 先验的 3D 生成方法

为了解决这一问题，Google 的 Dream Fusion 首次提出 Score Distillation Sampling（SDS）的方法，证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型，这一架构也一直被研究者们和后续工作所沿用，例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域，来反向生成 3d 场景。

尽管基于 SDS 的方法取得了令人瞩目的成果，然而，本文的研究者们发现，基于 SDS 的方法在实际实现中总是与理论出现一些差距，主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时，推动优化的梯度实际上包含两个部分：一是数据密度的梯度，二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分，而后者仅仅是在实验过程中才加入的辅助手段。

分类器分数蒸馏：重塑 3D 生成的关键所在

这篇论文的核心贡献，在于重新评估了 SDS 中 CFG 的角色，发现 CFG 不仅仅是辅助手段，恰恰相反，它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型，研究者们将这一新范式命名为分类器分数蒸馏（Classifier Score Distillation, CSD）。

这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言，其有效性来自于从隐式分类器中提炼知识，而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如，研究者们展示了负面提示可以被视为负分类器分数，从而制定了一个渐进式的负分类器分数优化策略，这增强了生成质量，同时保持了与提示的结果忠实度。

此外，研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性，以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

实验效果

CSD 不仅在理论上对文本到三维生成领域提供了新的视角，而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的实验结果显示，在文本对齐和视觉质量方面，该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升，生成的纹理也真实丰富。

在速度上，CSD 在单个 A800 GPU 上只需 1 小时即可完成任务，而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势，加上其出色的生成质量，证明了 CSD 技术的高效性和实用性。

此外，定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

实验部分还对比了 CSD 在纹理生成这一任务上的能力，与多个方法进行比较，实验结果显示无论从效果还是用户研究中都优于其他方法。

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

此外，研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑，如下图所示，你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人，将模特身上的苔藓编辑为鲜花，而不损失其他部分。

重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型

总而言之，CSD 从理论出发，重新思考了目前 3D 生成的关键所在，重塑优化目标，最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用，我们能够更有效地从文本描述中生成高质量、高精度的三维内容，这对于三维内容创造领域的未来发展具有深远的影响。

本文转载于：https://www.51cto.com/article/780484.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：董明珠：格力电器在2023年实现290亿元利润，创税收历史新纪录

下一篇：年轻人的首个多模态大型模型：1080Ti无压力运行，已在线开放源代码可玩

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

《沙丘》电影第一部 3 月 1 日内地重映，《沙丘 2》3 月 8 日上映

本站1月29日消息，科幻电影《沙丘2》内地定档2024年3月8日上映。为了给电影预热，官方宣布《沙丘》电影第一部将于3月1日内地重映，也就是比新作提前一周，方便观众重温剧情。有趣的是，克里斯托弗・诺兰执导的热门电影《奥本海默》也将于3月1日在内地重映，同一天看到两部大片在内地重映，而且是才上映不久的大片，确实也是比较少见。《沙丘》系列电影是根据弗兰克・赫伯特的著名科幻小说改编的。该电影由丹尼斯・维伦纽瓦执导，主演包括提莫西・查拉梅和赞达亚。据本站此前报道，维伦纽瓦透露他即将完成《沙丘3》电影的剧本。“现在

3分钟前电影科幻沙丘 2 0
正版软件

何恺明和谢赛宁团队以步步解构扩散模型，最终成功打造经典去噪自编码器

去噪扩散模型（DDM）是目前广泛应用于图像生成的一种方法。最近，XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件，他们发现DDM的生成能力逐渐下降，但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型，去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型（DDM），通过学习一个去噪自动编码器（DAE），能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图像生成质量

18分钟前工程 l-DAE DAE DDM 0
正版软件

2月发布的真我12 Pro系列手机，注重奢华设计和强劲性能

realme真我品牌今日宣布，即将在2月推出全新的真我12Pro系列手机。这款新品最大的亮点是配备了“6400万超光影潜望长焦”镜头，这在同类产品中是独一无二的。同时，该系列的海外发布会也将于今日举行。真我12Pro和真我12Pro+两款新机已在Geekbench跑分库中展现出了出色的性能。根据跑分数据显示，真我12Pro搭载了高通骁龙6Gen1处理器，而真我12Pro+则采用了更强劲的骁龙7sGen2处理器。这意味着用户可以享受到更快速、更流畅的操作体验。无论是处理复杂任务、运行多个应用程序还是玩游戏，

33分钟前 Realme 0
正版软件

预测: 苹果iOS 18或将于6月发布，带来史上最大的升级和全面赋能的AI技术

据知名苹果分析师MarkGurman透露，苹果公司正全力准备史上最大规模升级的操作系统——iOS18，预计将于今年6月正式发布。这次重大更新将激发开发者的热情，并引发行业的广泛关注。据Gurman的报道，苹果在iOS18中加入了全新的人工智能技术，这些技术将被广泛运用于Siri、MessagesApp、iWork和Xcode等核心组件。这些新功能的引入将为用户和开发者提供更加便捷和高效的体验，带来前所未有的便利。根据小编的了解，iOS18将对Siri进行重大升级，集成更先进的大语言模型，使其变得更智能。这

48分钟前苹果 0
正版软件

期待售价令人惊喜！长安UNI-V插混版新车尺寸配置曝光

根据工信部最新发布的第379批《道路机动车辆生产企业及产品公告》，长安UNI-V插混版即将问世。这款备受期待的新车型预计将于今年正式上市，与消费者见面。新款长安UNI-V插混版在外观设计上具备吸引人的特点。前格栅与两侧装饰板巧妙地融合在一起，呈现出令人印象深刻的视觉效果。两侧大灯造型尖锐，犹如鹰眼般锋利，为整车增添了一丝凶猛的气息。车身侧面采用了时下流行的隐藏式门把手设计，与多辐铝合金轮辋相配，既时尚又具有运动感。车尾部分，新车采用独特的中置双出式排气布局，突显出其非凡的性能，并取消了上一代的iDD尾标，

58分钟前长安汽车 0