WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

　　发布于2024-12-25　阅读（0）

扫一扫，手机访问

OpenAI 的 Sora 在今年 2 月惊艳亮相，为文本生成视频带来了全新的突破。它可以根据文字输入创作出仿佛来自好莱坞的逼真且充满想象力的影片，让人叹为观止。许多人都对这一创新赞叹不已，认为OpenAI 的表现实现了巅峰之作。

Sora引发的热潮持续不减，同时研究者们也开始认识到AI视频生成技术的巨大潜力，这一领域正受到越来越多人的关注。

然而，当前 AI 视频生成领域，大部分算法研究将重点放在了通过文本提示生成视频，对于多模态输入，特别是图片与文本结合的场景，并没有进行深入探讨或广泛应用。这种偏向降低了生成视频的多样性和可控制性，限制了从静态图像到动态视频的转换能力。

另一方面，现有的大部分视频生成模型对生成视频内容缺乏可编辑性的支持，无法满足用户对生成视频进行个性化调整的需求。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

提示：把熊猫变成熊，并且让它跳舞。（Change the panda to a bear and make it dance.）

本文，来自 SEEKING AI、哈佛大学、斯坦福大学以及北京大学的研究者们共同提出了一种创新的基于图片 - 文本的视频生成编辑统一框架，名为 WorldGPT。该框架建立在 SEEKING AI 与上述顶尖高校共同研发的 VisionGPT 框架之上，不仅能够实现由图片和文本直接生成视频的功能，还支持通过简单的文本提示（prompt）对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

该框架的另一个显著优势在于其无需进行训练，这使得技术门槛大幅降低，同时也使得部署和使用变得非常方便。用户可以直接使用模型进行创作，而无需关注背后繁琐的训练过程。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

论文地址：https://arxiv.org/pdf/2403.07944.pdf
论文标题：WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下来我们看看 WorldGPT 在多种复杂视频生成控制场景中的示例展示。

背景替换 + 生成视频

提示：「一支船队在呼啸的风暴中奋力前行，他们的船帆在无情风暴的巨浪中航行。（A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.）」

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

背景替换 + 风格化 + 生成视频

提示：「一条可爱的龙在城市的街道上喷火。（A cute dragon is spitting fire on an urban street.）」

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

对象替换 + 背景替换 + 生成视频

提示：「一个赛博朋克风格的机器人在霓虹灯照亮的反乌托邦城市景观中疾驰，高耸的全息图和数字衰变的反射投影到其光滑的金属机身上。（A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.）」

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

从上面的示例可以看出，WorldGPT 在面对复杂视频生成指令时具有以下优点：

1）较好的保持了原输入图像的结构和环境；

2）生成符合图片 - 文本描述的生成视频，展现出了强大的视频生成定制能力；

3）可以通过 prompt 对生成视频进行定制化编辑。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

了解更多有关 WorldGPT 的原理、实验和用例的信息，请查看原论文。

VisonGPT

前面已经提到，WorldGPT 框架建立在 VisionGPT 框架之上。接下来我们简单介绍一下有关 VisionGPT 的信息。

VisionGPT 是由 SeekingAI、斯坦福大学、哈佛大学及北京大学等世界顶尖机构联合研发，是一款开创性的开放世界视觉感知大模型框架。该框架通过智能整合和决策选择最先进的 SOTA 大模型，提供了强大的 AI 多模态图像处理功能。

VisionGPT 的创新之处主要体现在三个方面：

首先，它以大型语言模型（例如 LLaMA-2）为核心，将用户的 prompt 请求分解成详细的步骤需求，并自动化调用最合适的大模型进行处理；
其次，VisionGPT 自动接受并融合来自多个 SOTA 大模型产生的多模态输出，从而生成针对用户需求的图像处理结果；
最后，VisionGPT 具有极高的灵活性和多功能性，无需用户对模型进行微调，就能够支持包括文本驱动的图像理解、生成、编辑在内的广泛应用场景。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

论文地址：https://arxiv.org/pdf/2403.09027.pdf
论文标题：VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

从上面可以看出，VisionGPT 无需 fine-tune，即可以轻松实现 1）开放世界的实例分割；2）基于 prompt 的图像生成和编辑功能等。VisionGPT 的工作流程如下图所示。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

更多详细信息可以参考论文。

VisionGPT-3D

此外，研究者们还推出了 VisionGPT-3D，旨在解决从文本到视觉元素转换中的一大挑战：如何高效、准确地将 2D 图像转换成 3D 表示。在这个过程中，经常面临算法与实际需求不匹配的问题，从而影响最终结果的质量。VisionGPT-3D 通过整合多种最先进的 SOTA 视觉大模型，提出了一个多模态框架，优化了这一转换流程。其核心创新点在于自动选择最适合的视觉 SOTA 模型和 3D 点云创建算法，并且根据文本提示等多模态输入生成最符合用户需求的输出的能力。

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

论文地址：https://arxiv.org/pdf/2403.09530v1.pdf
论文标题： VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息，请参考原论文。

本文转载于：https://www.jiqizhixin.com/articles/2024-03-21-10 如有侵犯，请联系admin@zhengruan.com删除

上一篇：笔记本电脑升级独立显卡

下一篇：让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

我国全网短视频账号总数达 15.5 亿个，职业主播达 1508 万人

本站3月27日消息，据央视新闻，《中国网络视听发展研究报告（2024）》今日在成都发布。报告显示，截至2023年12月，我国网络视听用户规模达10.74亿人，网民使用率98.3%，网络视听“第一大互联网应用”地位愈加稳固。本站注意到，《报告》显示，2023年，包括长视频、短视频、直播、音频等领域在内的网络视听行业市场规模首次突破万亿，达11524.81亿元，以网络视听业务为主营业务的存续企业共有66万余家。截至2023年12月，全网短视频账号总数达15.5亿个，职业主播数量已达1508万人，主要短视频平台

1分钟前直播短视频主播 0
正版软件

独特纯白配色引发小米12S Ultra用户期待

7月13日消息，近日有网友自制了一款独特的小米12SUltra手机，将机身背部全部涂上纯白色。这款自制手机在外观上与官方发布的版本有所不同，除了圆形的镜头玻璃盖板和红色的LEICA标志外，整个机身背部都呈现出纯白配色，给人一种非常出色的视觉效果。据小编了解，在小米及其子品牌Redmi旗下，许多机型都提供了纯白色版本，比如小米12S、小米12SPro、小米13、小米13Pro、RedmiK60、RedmiK60Pro、RedmiNote11TPro、RedmiNote12Turbo等。这些纯白配色的机型得到

16分钟前 0
正版软件

vivo 明年将推首款 MR 混合现实眼镜样机

根据财经报道，近期在博鳌论坛上，vivo执行副总裁、首席运营官胡柏山和“互联网教父”凯文·凯利接受采访时，提到了一款具有潜质的混合现实眼镜产品MR（混合现实）眼镜。胡柏山透露，vivo将在明年三十周年之际，推出“体验很好”的MR样机，后续也会在人形机器人方向发力。胡柏山被誉为手机性能越来越强以后，有很大一部分手机已经当作了生产力工具，那未来MR眼镜就是下一代有手机潜质的（产品）。据本站此前报道，在去年底的vivo会客厅开放日活动中，胡柏山透露目前vivo正在MR以及人形机器人赛道布局，三年内预计产品化，v

31分钟前 vivo MR MR眼镜 0
正版软件

提升工作效率！微软Teams Premium新增智能会议回顾功能

5月31日消息，微软今天宣布为企业客户提供的TeamsPremium服务新增了一项功能，名为智能会议回顾(intelligentmeetingrecap)，该功能已正式上线并可供TeamsPremium用户使用。据微软表示，智能会议回顾将为缺席在线会议的员工或想要回顾会议讨论内容的员工提供极大的帮助。根据微软的研究显示，有56%的Teams会议参与者表示很难总结会议发生了什么，而55%的用户则表示对会议后应该采取的行动不清楚。为此，智能会议回顾功能在这两个方面提供了解决方案。智能回顾功能利用人工智能技术，

41分钟前微软 0
正版软件

OPPO A1s新机亮相：金刚石抗摔加持，顶配12GB+512GB存储

4月12日消息，OPPO近日在京东上架了全新机型A1s，并宣布将于4月19日上午10点正式开启预售活动。这款新机以其独特的质感外观和金刚石抗摔结构备受瞩目，旨在实现从内到外的全面抗摔性能。OPPOA1s共推出了暮山紫、夜海黑和天水碧三种颜色供消费者选择。在配置方面，OPPOA1s可谓强大。它标配有12GB的内存，并可通过技术手段将额外的12GB虚拟内存，大大提升了手机的运行效率。此外，该机还提供给用户256GB和512GB两种版本以满足用户不同的存储需求。电池容量达到了5000毫安时，OPPO官方更是宣称

56分钟前 0