谷歌釋出VideoPoet，視訊生成又添一猛將

2023-12-20圖片

生成AI正在視訊創作領域發揮越來越重要的作用，尤其是在提高創意表達和簡化視訊制作流程方面。由史丹佛大學人工智慧實驗室的前博士生Demi Guo和Chenlin Meng共同創立的Pika前段時間大火了一把，它可以延長現有視訊的長度或將其轉換為不同的風格，如從實拍轉為動畫，或擴充套件視訊的畫布或寬高比，還可使用AI編輯視訊內容，如更改某人的衣服甚至增加另一個角色，其震撼的效果將其推向熱門話題。隨後史丹佛同谷歌合作，推出了用於生成逼真視訊的擴散模型W.A.L.T。視訊生成變成了當前大模型套用的新寵。

谷歌新釋出的VideoPoet為目前火熱的視訊生成又註入了一大強心劑。在VideoPoet中，輸入的影像可以被制作成動畫以產生運動效果，而視訊（可選擇性地裁剪或遮蓋）可以被編輯用於內部繪畫或外部繪畫。為了進行風格化處理，模型接收一個表示深度和光流的視訊，這些代表了運動，並在其上繪制內容以產生由文本指導的風格。

VideoPoet的一個重要特點是使用大型語言模型(LLMs)進行訓練，可以重用現有LLM訓練基礎設施中引入的許多可延伸的效率改進。然而，LLMs是基於離散令牌操作的，這可能使視訊生成變得具有挑戰性。幸運的是，存在視訊和音訊的分詞器，它們用於將視訊和音訊剪輯編碼為離散令牌序列（即整數索引），並且也可以轉換回原始表示形式。

對於文本到視訊，視訊輸出是可變長度的，並且可以根據文本內容套用不同的運動和風格。

對於影像到視訊，VideoPoet可以接收輸入影像，並根據提示對其進行動畫處理。

對於視訊風格化，可以在輸入額外文本資訊之前可以預測光流和深度資訊。

VideoPoet不僅僅是生成靜默的連續影像幀，而且能生成帶聲音的視訊。還能生成長視訊，並且能對視訊片段進行互動式剪輯。

無疑VideoPoet的產生為更豐富的視訊套用帶來深刻的影響，專業品質的視訊創作也將由生成AI民主化，大大滿足了專業人士和非專業人士生產視訊的效率。