當前位置: 華文天下 > 電影

文生視訊,不能只「叫好」

2024-03-28電影

◎ 文 【法人】雜誌全媒體記者 李遼

一位身穿皮衣的時髦女人走在日本東京雨後的街頭,她的身後霓虹閃爍、遊人穿梭,地面上的積水映出光怪陸離的城市倒影。跟隨她自信的腳步,鏡頭移動,水中倒影變幻,與繁華的街頭交相輝映。切換到臉部特寫,女人展露出愜意的笑容,墨鏡映照出這座城市的靈動映像······

▲CFP

這段視訊總長60秒,一鏡到底,畫面主體穩定,人物表情生動,場景逼真,運鏡復雜,一經釋出便引發熱議。因為這並非實景拍攝,而是今年2月,由OpenAI公司推出的文生視訊大模型Sora根據文本提示所生成,其以假亂真的程度令人驚嘆「眼見不再為實」,也對即將到來全新的AI風險顯現出隱隱擔憂。

從「一眼假」到「真假難辨」

文生視訊是生成式AI的一個重要分支,能夠根據使用者提供的文字內容和圖片自動生成視訊。上一個引發網路熱議的AI生成視訊是2023年年初網友釋出的「威爾·史密斯吃義大利直麵」。該視訊畫質粗糙,主人公動作機械,面條在快要進嘴時發生嚴重形變,無端消失後又重新從下巴出現,各種詭異、滑稽而又尷尬的細節提醒著大家,這是一個「AI味十足」的視訊。

當時,AI生成視訊僅停留在博網友一笑的層面,很難正常使用,更別提為商業賦能。但不到一年時間,Sora釋出的幾段視訊竟足以令人真假難辨。

據悉,這次Sora釋出了多個視訊。除了時髦女人在東京街頭的漫步,還有AI想象中的龍年春節視訊,畫面中有舞獅團隊、擡頭觀望的兒童、舉著手機拍照的路人,近百人在各自的角色中有條不紊地活動。另有一段視訊,鏡頭對準列車窗玻璃,當列車行駛時,窗外不時出現近距離的高樓遮擋物,此時車內人物投射在窗玻璃上的映像短暫出現,驚鴻一瞥,讓人很難看出破綻。

近日,浙江大學光華法學院特聘研究員、碩士生導師周翔在接受【法人】記者采訪時稱:「此次Sora生成的視訊,在保持一致的連續時空內,對合成內容中的最小單元進行了有意義的關聯組合,將其拼接成一段有邏輯的動感視訊,展現了令人震撼的技術。」

中國科學院大學電腦博士、瑞泊(北京)人工智慧科技有限公司聯合創始人茍甜也認為,這次Sora生成的視訊說明,它可以很好地理解空間與時間的關系,實作了對現實世界的理解和對世界的模擬兩層能力。她舉例說:「東京街頭的視訊中,水窪中的倒影跟隨鏡頭移動發生變化,而這個變化符合物理規律,但之前的視訊做不到這麽精細。另一段視訊中,鏡頭以第一人稱視角,跟隨滑軌車從高處滑下,呈現出的空間感十分真實,但此前的視訊展現出的空間感卻顯得混亂,可以說是‘一眼假’。」

如今,Sora能生成60秒的視訊,已經把以往的模型和其他模型遠遠甩在身後。畢竟,有很多模型仍在幾秒鐘的視訊連貫性中苦苦掙紮。

趣解生成原理

大模型的訓練原理是什麽?文生視訊Sora的原理又是什麽?為什麽之前的視訊達不到逼真的效果?

茍甜做了一個形象的比喻:「訓練大模型如同我們要訓練一個人閉著眼睛打麻將。初始階段,我們讓他只接觸‘一餅’的牌,透過觸感來記憶它的形狀和質感。隨後引入‘二餅’和‘三餅’,讓他透過觸摸來區分和記憶每種牌的特點。雖然他看不到牌的具體模樣,但透過觸感學習能夠辨識出不同的牌。在學習過程中,他還被告知,當這三種牌結合在一起時,可以形成一種贏牌的組合。透過這種方式,即便是閉眼,他也能根據已學的觸感策略來玩遊戲並尋求勝利。」

她說:「當Sora對海量視訊進行學習時,其實不只是學習了視訊中的畫面特征。可能還學習到,隨著時間推移,一些物體動作的變化引起其它物體變化,這種真實世界中的互動關系,從而對真實世界進行了較好的模擬。同時,Sora也學習到了視訊對應提示文字內容中的語意特征。」但她也稱,這次Sora的成功,倒不是因為其背後所使用的技術有多大創新,而是使用了更多更好的數據。透過收集和預處理大量視訊數據來訓練模型,並使用GPT-4等語言模型對提示的文字進行細化和潤色,同時融合了Transformer模型和擴散模型技術。「事實證明,‘大力出奇跡’的技術路線再次展現出強大威力。」

周翔認為,就像是為了練就修建大橋的能力,不斷將大橋拆散再拼裝,在反復的過程中,去學習跨結構、支座系統、橋墩、橋台和墩台之間的組合關系。因此,Sora學習視訊的過程並非簡單和隨機的,而是對物理世界進行了充分理解。

盡管目前Sora並未使用與以往不同的新技術,但其視訊生成方式需要強大的算力和巨大的資金支持。對於一個60幀的視訊(約6秒至8秒),Sora要生成至少約120萬個token(文本處理最小單位),這是相當大的計算量,無疑提高了門檻,使同行難以跟進。這也意味著,未來對算力的需求將再次迎來爆發。

談「顛覆」為時過早

目前,文生視訊主要套用在傳媒影視領域。Sora展現出的強大視訊生成能力,讓人不禁擔心,未來是否將淘汰掉編劇、導演、演員、攝影、燈光、特效等傳統工種?其實,早在2016年,AI就參與到影視劇本的創作中。在當年的倫敦科幻電影節,名為「Benjamin」的AI模型在學習了【星際穿越】等多部科幻影片的劇本之後,創作出了長達9分鐘的科幻電影【Sunspring】。這讓網友驚嘆:「編劇不是人,這才是真正的科幻。」

據悉,Sora生成視訊釋出後,科幻片導演葛雲峰便與團隊緊急開會,探討後期制作業務轉型、新片拍攝調整等問題。他對媒體稱:「新片預計投資數千萬元規模,如果後期制作引入Sora或類似模型,預計拍攝成本會降低700萬元至800萬元,相當於空出了一位或者幾位主演的片酬。」另一位科幻片導演郁剛則對媒體表示,Sora的出現,意味著科幻電影的優秀創作者終於不再被巨額視效費用限制。

在電影制作界,AI平台Wonder Studio被廣泛套用於3D效果生成。北京冬奧會開幕式倒計時短片導演龍江波因為擅長利用特效,被網友們稱為視覺系導演。他稱:「如果之後Sora繼續前進演化,再與Wonder Studio相結合,3D動畫及相關行業將被顛覆。」

但目前,龍江波還沒有套用Sora進行電影創作。「要說它能顛覆整個電影行業,還為時過早。」他稱,制作一部電影非常復雜,「要有引發觀眾共鳴的劇本,根據每一個情節做相應分鏡,尋找演員拍攝,完成後要將拍攝素材進行剪輯,而Sora目前還無法對這個任務擁有成熟的理解。另外,真人表演及表情的隨機感和溫度感極為復雜和不可預測,這種不確定性和非工業性,往往是作品獨特的魅力所在。就像社會發展到今天,仍然會有手工作業的模式存在。不可否認,AI制作開創了一個新紀元,它一定是一個絕佳的數位工具,創作者自身的美學和認知及觀點的輸出和表達,會變得比以往更加重要。具體來說,其中最為重要的是創作者要懂得如何選擇,如何在大大小小的節點中懂得作判斷,真正好的作品都是基於無數個超凡智慧的選擇而成為經典,而不是依靠某種工具,神筆馬良的故事是童話、神話,卻不是科學。」

想讓模型生成一部真正的電影,茍甜認為,首先它必須是一位非常成熟的電影制作人,知曉電影制作背後的所有步驟,明白怎麽拆分任務,但目前,專業知識在模型的整個知識體系裏占比較小。「現在模型學習到的,更多是一種對事物或事件的描述性語言,是對結果的描述,缺少實作結果的步驟,也就是說缺少過程數據。因此,目前能讓Sora發揮效果的領域,可能只是在電影制作分拆後的每個階段性任務中。」

「眼見不再為實」

近年來,多地出現AI詐騙及不當牟利案件。2023年5月24日,中國互聯網協會稱,利用「AI換臉」「AI換聲」等進行詐騙、誹謗的違法行為屢見不鮮。

今年2月香港警方披露的多人「AI換臉」詐騙案,涉案金額高達兩億港元。受害人受邀參加某企業總部財務長發起的「多人視訊會議」,並按照要求先後進行轉賬,一周後才知受騙。而這起所謂的視訊會議,只有受害人是「真人」,其他「參會人員」均為AI技術換臉的數位人。

可見,AI風險一直存在,而Sora又將這種可能性擴大了一個數量級,如果被不法分子利用,將使犯罪成本大大降低。同時,一旦AI生成視訊技術得到推廣,視訊證據的法律效力也面臨更大考驗。比如,在送出視訊證據時,必須先對視訊證據的真偽進行鑒定。或許,能夠分辨視訊真假的甄別技術也該適時出現。

永生人的倫理問題也引發了業內的熱烈探討。電影【流浪地球2】中,劉德華飾演的科學家,在女兒丫丫車禍去世後,利用AI技術復刻了一個數位人「丫丫」,可以即時應答與互動。現實中,音樂人包小柏在痛失女兒後,利用AI技術,重現女兒影像,不僅可以唱歌還可以對話,使女兒在數位世界「復活」並「永生」。

用AI「復活」逝去的親人,可以撫慰人心和填補遺憾,這樣的產業極具市場前景。據悉,南京有一個5人的AI技術團隊,在半年多時間裏,利用AI技術幫助顧客復活逝去的親人,幫助600個家庭實作了「線上團聚」。

其積極意義無法忽視,但另一方面,如果該類技術成熟,人類的倫理規則也許會發生重構。「如果利用AI技術對沒有本人授權的形象進行數位人的創造,並做出不被本人授權的行為,甚至利用數位人進行非法犯罪,將為社會帶來較大風險。」茍甜稱,「因此,在叫好的同時也要保持警惕。」

編審|渠 洋

責編|惠寧寧

校對|張 波 張雪慧

來源|【法人】雜誌2024年03月總第241期