谷歌发布“ Vlogger ”模型：以单张图片生成 10 秒视频

　　发布于2024-11-29　阅读（0）

扫一扫，手机访问

谷歌发布了一个新的视频框架：

只需要一张你的头像、一段讲话录音，就能得到一个本人栩栩如生的演讲视频。

视频时长可变，目前看到的示例最高为 10s。

可以看到，无论是口型还是面部表情，它都非常自然。

如果输入图像囊括整个上半身，它也能配合丰富的手势：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

网友看完就表示：

有了它，以后咱开线上视频会议再也不需要整理好发型、穿好衣服再去了。

嗯，拍一张肖像，录好演讲音频就可以（手动狗头）

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

用声音控制肖像生成视频

这个框架名叫VLOGGER。

它主要基于扩散模型，并包含两部分：

一个是随机的人体到 3D 运动（human-to-3d-motion）扩散模型。

另一个是用于增强文本到图像模型的新扩散架构。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

其中，前者负责将音频波形作为输入，生成人物的身体控制动作，包括眼神、表情和手势、身体整体姿势等等。

后者则是一个时间维度的图像到图像模型，用于扩展大型图像扩散模型，使用刚刚预测的动作来生成相应的帧。

为了使结果符合特定的人物形象，VLOGGER 还将参数图像的 pose 图作为输入。

VLOGGER 的训练是在一个超大的数据集（名叫 MENTOR）上完成的。

有多大？全长 2200 小时，共包含 80 万个人物视频。

其中，测试集的视频时长也有 120 小时长，共计 4000 个人物。

谷歌介绍，VLOGGER 最突出的表现是具备多样性：

如下图所示，最后的像素图颜色越深（红）的部分，代表动作越丰富。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

而和业内此前的同类方法相比，VLOGGER 最大的优势则体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪，并且生成的视频很完整（既包括面部和唇部，也包括肢体动作）等等。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

具体来看，如下表所示：

Face Reenactment 方法无法用音频和文本来控制此类视频生成。

Audio-to-motion 倒是可以音频生成，方式也是将音频编码为 3D 人脸动作，不过它生成的效果不够逼真。

Lip sync 可以处理不同主题的视频，但只能模拟嘴部动作。

对比起来，后面的两种方法 SadTaker 和 Styletalk 表现最接近谷歌 VLOGGER，但也败在了不能进行身体控制上，并且也不能进一步编辑视频。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

说到视频编辑，如下图所示，VLOGGER 模型的应用之一就是这个，它可以一键让人物闭嘴、闭眼、只闭左眼或者全程睁眼：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

另一个应用则是视频翻译：

例如将原视频的英语讲话改成口型一致的西班牙语。

网友吐槽

最后，" 老规矩 "，谷歌没有发布模型，现在能看的只有更多效果还有论文。

嗯，吐槽也是不少的：

画质模型、口型抽风对不上、看起来还是很机器人等等。

因此，有人毫不犹豫打上差评：

这就是谷歌的水准吗？

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

有点对不起 "VLOGGER" 这个名字了。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

——和 OpenAI 的 Sora 对比，网友的说法确实也不是没有道理。。

大家觉得呢？

更多效果：

https://enriccorona.github.io/vlogger/

完整论文：

https://enriccorona.github.io/vlogger/paper.pdf

本文转载于：https://www.myzaker.com/article/65fa65678e9f097e47498973 如有侵犯，请联系admin@zhengruan.com删除

上一篇：三星即将发布折叠屏新品，或将在7月下旬揭晓

下一篇：三星电子：2027年重新夺回全球半导体巨头地位

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

当代最精细的画面？《地平线：西之绝境》Steam 版将于3月21日解锁

3月21日，PS5移植游戏《地平线：西之绝境》即将在Steam平台正式推出。因为之前PlayStation独占，第一部作品《地平线：零之曙光》经过四年后才登陆PC。而距今已有两年的最新续作《地平线：西之绝境》也将终于登陆PC平台。众所周知，将游戏移植到PC平台后，通常会有相应的画面升级。而《地平线：西之绝境》在PS5上已经展现出了顶尖的画质表现。因此，人们都对该游戏在3月21日登陆Steam平台时会呈现出怎样的表现充满了期待。此外，游戏登陆PC端时还将支持NVIDIADLSS3、NVIDIADLAA和NV

9分钟前 Steam 分辨率华硕 PS5 美图曙光 0
正版软件

推出旨在发现数据价值的产品 MorningStar Data Insights 正式问世

3月11日，国际领先的AI数据技术公司星尘数据（StardustAI）在北京举办2024年春季产品发布会，重磅推出MorningStar，一款面向AI的数据闭环产品。MorningStar是首款专注数据价值发现的AI数据平台，相较于传统的数据管理工具，这款理念先进、操作便捷、功能丰富的AI数据发现、管理、协作、迭代平台，专为发现数据价值，加速模型迭代，解决AI数据债问题打造，能够支撑企业Al数据高效迭代的关键环节，避免数据债风险积聚、低价值数据成本浪费、模型训练与应用效果反馈链长等问题。▲MorningS

14分钟前 AI 自动化效果数据挖掘工程师美图 0
正版软件

小米 Civi 4 Pro 正式发布，设计亮相

小米Civi4Pro突然在3月19日官宣，新机将在3月21日下午14点发布，而3月21日晚上19点是一加Ace3V发布会。因为只有不到3天预热时间，当天就公布了小米Civi4Pro的外观。小米Civi4Pro（24031PN0DC）将首发昨天发布的骁龙8sGen3，预计是6.55英寸1.5K等深微曲屏+直边磨砂金属中框，有徕卡信仰下放，主摄F1.63光圈，等效15mm超广角+等效50mm长焦，有天通卫星通信版本。有粉/蓝/绿3色，绿色是拼接设计的科技纳米皮（终于，连Civi系列也开始用素皮了），有双扬+红

24分钟前小米台积电荣耀一加骁龙美图 0
正版软件

OPPO首次进军便民服务领域，推出“小修小补”服务计划

3月20日，OPPO官方服务中心正式入驻腾讯微信便民服务"小修小补"引路行动，成为首批入驻该服务的手机品牌。用户在腾讯地图App、微信中搜索关键词"小修小补"，即可快速定位、导航至全国5000余家OPPO旗舰店、授权体验店和官方授权服务体验中心等临近网点，完成手机维修等相关事项。OPPO官方服务中心入驻便民服务"小修小补"引路行动"小修小补"引路行动系商务部政策提倡、微信和腾讯地图联合发起的便民活动，于2023年3月上线运行。首批筛选出的全国200多个城市超50万个修补小店的地理位置和服务信息，为全国便民

39分钟前微信腾讯 OPPO 美图腾讯地图初心 0
正版软件

计算机持续重启并显示自动修复界面

电脑开不了机一直显示正在准备自动修复可以长按开机键直到机器断电，然后再开机，再断电，重复3-5次，直到进入如下图的恢复模式。②从选择选项屏幕中，请点击或单击疑难解③请点击或单击高级选项，然后点击或单击自动修复。电脑开机一直显示自动修复：如果遇到电脑开机显示正在准备自动恢复的提示建议等待系统的自动恢复完成。将电脑完全关机(确认彻底关机后再操作)，按开机按钮的同时立即快速点击F11；进入F11界面后，选择→→；显示“正在准备系统还原”后，会出现选择帐户界面。电脑强制关机重启3-5次，直到电脑出现“查看高级修复

49分钟前不能开机） 0

谷歌发布“ Vlogger ”模型：以单张图片生成 10 秒视频

产品推荐

最新发布

相关推荐

热门关注