當前位置: 華文天下 > 圖片

谷歌釋出VideoPoet,視訊生成又添一猛將

2023-12-20圖片

生成AI正在視訊創作領域發揮越來越重要的作用,尤其是在提高創意表達和簡化視訊制作流程方面。由史丹佛大學人工智慧實驗室的前博士生Demi Guo和Chenlin Meng共同創立的Pika前段時間大火了一把,它可以延長現有視訊的長度或將其轉換為不同的風格,如從實拍轉為動畫,或擴充套件視訊的畫布或寬高比,還可使用AI編輯視訊內容,如更改某人的衣服甚至增加另一個角色,其震撼的效果將其推向熱門話題。隨後史丹佛同谷歌合作,推出了用於生成逼真視訊的擴散模型W.A.L.T。視訊生成變成了當前大模型套用的新寵。

谷歌新釋出的VideoPoet為目前火熱的視訊生成又註入了一大強心劑。在VideoPoet中,輸入的影像可以被制作成動畫以產生運動效果,而視訊(可選擇性地裁剪或遮蓋)可以被編輯用於內部繪畫或外部繪畫。為了進行風格化處理,模型接收一個表示深度和光流的視訊,這些代表了運動,並在其上繪制內容以產生由文本指導的風格。

VideoPoet的一個重要特點是使用大型語言模型(LLMs)進行訓練,可以重用現有LLM訓練基礎設施中引入的許多可延伸的效率改進。然而,LLMs是基於離散令牌操作的,這可能使視訊生成變得具有挑戰性。幸運的是,存在視訊和音訊的分詞器,它們用於將視訊和音訊剪輯編碼為離散令牌序列(即整數索引),並且也可以轉換回原始表示形式。

對於文本到視訊,視訊輸出是可變長度的,並且可以根據文本內容套用不同的運動和風格。

對於影像到視訊,VideoPoet可以接收輸入影像,並根據提示對其進行動畫處理。

對於視訊風格化,可以在輸入額外文本資訊之前可以預測光流和深度資訊。

VideoPoet不僅僅是生成靜默的連續影像幀,而且能生成帶聲音的視訊。還能生成長視訊,並且能對視訊片段進行互動式剪輯。

無疑VideoPoet的產生為更豐富的視訊套用帶來深刻的影響,專業品質的視訊創作也將由生成AI民主化,大大滿足了專業人士和非專業人士生產視訊的效率。