当前位置: 华文天下 > 图片

谷歌发布VideoPoet,视频生成又添一猛将

2023-12-20图片

生成AI正在视频创作领域发挥越来越重要的作用,尤其是在提高创意表达和简化视频制作流程方面。由斯坦福大学人工智能实验室的前博士生Demi Guo和Chenlin Meng共同创立的Pika前段时间大火了一把,它可以延长现有视频的长度或将其转换为不同的风格,如从实拍转为动画,或扩展视频的画布或宽高比,还可使用AI编辑视频内容,如更改某人的衣服甚至增加另一个角色,其震撼的效果将其推向热门话题。随后斯坦福同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。视频生成变成了当前大模型应用的新宠。

谷歌新发布的VideoPoet为目前火热的视频生成又注入了一大强心剂。在VideoPoet中,输入的图像可以被制作成动画以产生运动效果,而视频(可选择性地裁剪或遮盖)可以被编辑用于内部绘画或外部绘画。为了进行风格化处理,模型接收一个表示深度和光流的视频,这些代表了运动,并在其上绘制内容以产生由文本指导的风格。

VideoPoet的一个重要特点是使用大型语言模型(LLMs)进行训练,可以重用现有LLM训练基础设施中引入的许多可扩展的效率改进。然而,LLMs是基于离散令牌操作的,这可能使视频生成变得具有挑战性。幸运的是,存在视频和音频的分词器,它们用于将视频和音频剪辑编码为离散令牌序列(即整数索引),并且也可以转换回原始表示形式。

对于文本到视频,视频输出是可变长度的,并且可以根据文本内容应用不同的运动和风格。

对于图像到视频,VideoPoet可以接收输入图像,并根据提示对其进行动画处理。

对于视频风格化,可以在输入额外文本信息之前可以预测光流和深度信息。

VideoPoet不仅仅是生成静默的连续图像帧,而且能生成带声音的视频。还能生成长视频,并且能对视频片段进行交互式剪辑。

无疑VideoPoet的产生为更丰富的视频应用带来深刻的影响,专业质量的视频创作也将由生成AI民主化,大大满足了专业人士和非专业人士生产视频的效率。