未来的短视频是什么样的?是否可以直接AI生成?
内容生成AI进入视频时代!
Meta发布「用嘴做视频」仅一周,谷歌CEO劈柴哥接连派出两名选手上场竞争。
第一位Imagen Video与Meta的Make-A-Video相比突出一个高清,能生成1280*768分辨率、每秒24帧的视频片段。
另一位选手Phenaki,则能根据200个词左右的提示语生成2分钟以上的长镜头,讲述一个完整的故事。
网友看过后表示,这一切进展实在太快了。
也有网友认为,这种技术一旦成熟,会冲击短视频行业。
那么,两个AI具体有什么能力和特点,我们分别来看。
Imagen Video:理解艺术风格与3D结构
Imagen Video同样基于最近大火的扩散模型,直接继承自5月份的图像生成SOTA模型Imagen。
除了分辨率高以外,还展示出三种特别能力。
首先它能理解并生成不同艺术风格的作品,如“水彩画”或者“像素画”,或者直接“梵高风格”。
它还能理解物体的3D结构,在旋转展示中不会变形。
最后它还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画,
这效果,直接当成一个视频的片头不过分吧?
除了应用效果出色以外,研究人员表示其中用到的一些优化技巧不光对视频生成有效,可以泛化至一般扩散模型。
具体来说,Imagen Video是一系列模型的集合。
语言模型部分是谷歌自家的T5-XXL,训练好后冻结住文本编码器部分。
与负责从文本特征映射到图像特征的CLIP相比,有一个关键不同:
语言模型只负责编码文本特征,把文本到图像转换的工作丢给了后面的视频扩散模型。
基础模型,在生成图像的基础上以自回归方式不断预测下一帧,首先生成一个48*24、每秒3帧的视频。
接下来,一系列空间超分辨率(Spatial Super-Resolution)与时间超分辨率(Temporal Super-Resolution)模型接连对视频做扩展处理。
所有7种扩散模型都使用了v-prediction parameterization方法,与传统方法相比在视频场景中可以避免颜色偏移。
这种方法扩展到一般扩散模型,还使样本质量指标的收敛速度更快。
此外还有渐进式蒸馏(Progressive Distillation),将每次迭代所需的采样步骤减半,大大节省显存消耗。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。