谷歌发布VideoPoet，视频生成又添一猛将

2023-12-20图片

生成AI正在视频创作领域发挥越来越重要的作用，尤其是在提高创意表达和简化视频制作流程方面。由斯坦福大学人工智能实验室的前博士生Demi Guo和Chenlin Meng共同创立的Pika前段时间大火了一把，它可以延长现有视频的长度或将其转换为不同的风格，如从实拍转为动画，或扩展视频的画布或宽高比，还可使用AI编辑视频内容，如更改某人的衣服甚至增加另一个角色，其震撼的效果将其推向热门话题。随后斯坦福同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。视频生成变成了当前大模型应用的新宠。

谷歌新发布的VideoPoet为目前火热的视频生成又注入了一大强心剂。在VideoPoet中，输入的图像可以被制作成动画以产生运动效果，而视频（可选择性地裁剪或遮盖）可以被编辑用于内部绘画或外部绘画。为了进行风格化处理，模型接收一个表示深度和光流的视频，这些代表了运动，并在其上绘制内容以产生由文本指导的风格。

VideoPoet的一个重要特点是使用大型语言模型(LLMs)进行训练，可以重用现有LLM训练基础设施中引入的许多可扩展的效率改进。然而，LLMs是基于离散令牌操作的，这可能使视频生成变得具有挑战性。幸运的是，存在视频和音频的分词器，它们用于将视频和音频剪辑编码为离散令牌序列（即整数索引），并且也可以转换回原始表示形式。

对于文本到视频，视频输出是可变长度的，并且可以根据文本内容应用不同的运动和风格。

对于图像到视频，VideoPoet可以接收输入图像，并根据提示对其进行动画处理。

对于视频风格化，可以在输入额外文本信息之前可以预测光流和深度信息。

VideoPoet不仅仅是生成静默的连续图像帧，而且能生成带声音的视频。还能生成长视频，并且能对视频片段进行交互式剪辑。

无疑VideoPoet的产生为更丰富的视频应用带来深刻的影响，专业质量的视频创作也将由生成AI民主化，大大满足了专业人士和非专业人士生产视频的效率。