发布于2024-12-27 阅读(0)
扫一扫,手机访问
出品 | 51CTO技术栈(微信号:blog51cto)
编译丨伊风
视频生成模型的脚步永不停歇!
图片
4月2日,谷歌刚刚发布了强大到可怕的AI视频编辑工具VLOGGER。VLOGGER就像收集了很多视频素材领域的前沿AI技能,而打造出的一款百宝箱。其中也有一些亮点细节,例如通过AI编辑,将让画面中讲话者的闭眼、闭嘴、甚至“wink”。
这意味着视频编辑在细节的深入上又精进了一个level!
Vlogger的工作原理是根据音频和图像输入,由“读唇器”根据音频预测说话者的动作,而“动画器”根据说话者的照片和动作细节创建视频帧。
图片
要知道VLOGGER这个百宝箱里都装了什么,可以跟随以下示例来看!
将图片驱动为一段视频。
图片
输入一种语言的视频和另一种语言的音频,它能根据新输入的语言调整说话者的嘴部动作!
顺便一提,OpenAI的VOICE ENGINE也在关注多语种的能力。可以根据一段音频生成一段保留原声音色及口音的外语视频,如果这些能力都能打通,那么音视频内容的出海将会畅通无阻。
图片
VLOGGER使得表情编辑更进一步,例如单独控制一只眼睛等。通过使用工具,将生成新的面部表情和动作,用以提升视频的创意。
图片
图片
毫无疑问VLOGGER的视频留下了令人印象深刻的亮点。如讲话时自然的身体姿势,增加手部运动以在一定程度上提升了视频的真实感。然而,生成的表情和动作比起真实视频还存在机械感重、不流畅的问题,因此会存在一定的“恐怖谷”效应。
参考链接:https://twitter.com/hey_madni/status/1774832882902864327
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店