【新智元導(dǎo)讀】近期以ChatGPT為代表的一大批大語言模型(LLM)的大火,將AIGC領(lǐng)域推向了一個熱潮,也讓更多的用戶感受到了AIGC技術(shù)對于工作效率上的提升。除了圍繞著文本生成的大語言模型之外,AIGC在圖像生成上也大放異彩。自從Stable Diffusion和Midjourney爆火之后,人們見識到了人工智能技術(shù)在圖片生成領(lǐng)域的強大實力。而Stable Diffusion的開源,又進一步促進了定制化生成模型社區(qū)的建立,使得圖片生成得到了長足的發(fā)展。然而,在更復(fù)雜、表達內(nèi)容更豐富的視頻生成領(lǐng)域,卻缺乏一個有能力生成高質(zhì)量視頻內(nèi)容的模型,對于下游不同類型的視頻例如電影和短視頻的創(chuàng)作也更是「天方夜譚」。為了打破這一窘境,微軟亞洲研究院(MSRA)聯(lián)合多所高校在視頻生成領(lǐng)域提出了一系列工作,涵蓋基礎(chǔ)生成模型和實現(xiàn)下游視頻生成任務(wù)的應(yīng)用模型。其中,有兩篇工作已經(jīng)被ACM Multimedia 2023接收。首先,北大和MSRA組成的聯(lián)合團隊針對將圖片生成模型拓展至視頻生成這一問題展開了細致的研究,提出了視頻生成基礎(chǔ)模型 VideoFactory。作者列表:汪文靖,楊歡,拓子曦,何匯國,朱俊臣,傅建龍,劉家瑛論文地址:https:///abs/2305.10874 1. 背景和動機
相較于圖像生成,視頻生成更為困難,其既包含空間域的單幀畫面建模,也包含時間域的跨幀運動建模。然而,相較于大規(guī)模高質(zhì)量圖像數(shù)據(jù),現(xiàn)有視頻數(shù)據(jù)集的質(zhì)量和規(guī)模均存在嚴重缺陷。受限于數(shù)據(jù)集,從零構(gòu)建高質(zhì)量視頻生成模型十分困難,因此大部分工作采用了將預(yù)訓(xùn)練的圖像生成模型拓展至視頻生成的方案,更加便利高效。在此背景下,如何將時序信息有效融入預(yù)訓(xùn)練的圖像生成模型成為了研究的重點。現(xiàn)有工作通常將獨立的一維卷積和注意力模塊分散地添加到視頻生成模型中,這會導(dǎo)致時空信息的交互不足。同時,當(dāng)前可用的視頻數(shù)據(jù)集質(zhì)量也不令人滿意,從而導(dǎo)致現(xiàn)有工作的生成質(zhì)量受限。其中具有代表性的WebVid-10M數(shù)據(jù)集分辨率不足(360P),且畫面含明顯水印。2.1 基于交換式時空交叉注意力機制的模型設(shè)計傳統(tǒng)的時空交互模塊設(shè)計如圖(a)-(c)所示,這些架構(gòu)獨立地處理每個幀上的空域操作,而時域操作考慮每個空間位置的多個幀,這種方式忽略了時空信息的重要交互。區(qū)別于(a)-(c)中的自注意力機制(self-attention),文章作者提出在空域和時域模塊之間引入交叉注意力機制:時域和空域特征會交替(swapped)地作為注意力機制中的Query和Key,以此充分將兩者的信息進行融合和交互。為減少計算開銷,進一步采用了3D窗口化的計算模式(3DW-MCA)。這種設(shè)計鼓勵了更多的時空信息交互,強化了時空域特征,完整的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。實驗結(jié)果表明,交替交叉注意力機制極大地提升了網(wǎng)絡(luò)對時空信息的建模能力,同時3D窗口的注意力優(yōu)化將計算開銷(包括運行時間和顯存消耗)顯著降低,并進一步提升了網(wǎng)絡(luò)的生成性能。2.2 首個超大規(guī)模的高質(zhì)量視頻生成數(shù)據(jù)集豐富的文本-視頻數(shù)據(jù)對是訓(xùn)練開放域文本到視頻生成模型的先決條件。然而,現(xiàn)有的文本視頻數(shù)據(jù)集在規(guī)模或質(zhì)量上總是受到限制,影響了高質(zhì)量視頻生成模型的構(gòu)建。文章作者詳細分析了現(xiàn)有數(shù)據(jù)集的規(guī)模和質(zhì)量,并提出了業(yè)內(nèi)首個同時滿足:高畫質(zhì)、大規(guī)模、強標(biāo)注的文本視頻對數(shù)據(jù)集HD-VG-130M。該工作首先根據(jù)HD-VILA-100M[2]的視頻標(biāo)簽進行采樣,從YouTube上收集原始高清視頻。由于原始視頻具有復(fù)雜的場景轉(zhuǎn)換,不利于生成模型學(xué)習(xí)時間相關(guān)性,因此使用PySceneDetect檢測并分割這些原始視頻中的場景,最終得到130M個單場景視頻片段。進一步,文章作者提取每個視頻片段的中心幀作為關(guān)鍵幀,使用BLIP-2為關(guān)鍵幀加上描述文本作為每個視頻片段的文本描述。HD-VG-130M中的所有視頻片段都是單一場景,這確保了關(guān)鍵幀的描述在大多數(shù)情況下具有足夠的代表性,可以描述整個片段的內(nèi)容。該工作從視頻類型、視頻時長和描述文本長度三個方面對數(shù)據(jù)集進行了全面分析,確保了該數(shù)據(jù)集中的視頻具有豐富的多樣性,且時長與文本長度都利于視頻生成模型的訓(xùn)練。通過使用提出的大規(guī)模高質(zhì)量數(shù)據(jù)集HD-VG-130M進行訓(xùn)練,網(wǎng)絡(luò)在數(shù)值指標(biāo)上得到了顯著的提升,同時在生成視覺效果得到了顯著的優(yōu)化,例如生成的樣本不再帶有水印。該工作以LDM作為預(yù)訓(xùn)練的圖像生成網(wǎng)絡(luò),使用了公開的WebVid-10M和HD-VG-130M進行聯(lián)合訓(xùn)練。推理時,聯(lián)合4x的預(yù)訓(xùn)練的超分辨率網(wǎng)絡(luò),最終生成1376 x 768的高清視頻。該工作在多個數(shù)據(jù)集上進行了與Zero-Shot和非Zero-Shot方法相比較的豐富實驗。在UCF-101的實驗中,VideoFactory在Zero-Shot的設(shè)定下,顯著超越了其它同類型的模型,提升了FVD指標(biāo)。在MSR-VTT的實驗中,該方法證明了其生成的樣本與輸入的文本具有極高的匹配程度。 
在WebVid-10M中,文章作者選取了5K的獨立測試集進行性能評估,該方法在生成指標(biāo)上顯著領(lǐng)先于現(xiàn)有的其它方法。 
最后,該方法進行了人工評測,測評指標(biāo)包含:視頻畫面質(zhì)量、文本和視頻內(nèi)容的匹配程度、綜合視頻效果三個維度。 在與開源方法的對比中,VideoFactory以壓倒性(綜合偏好度93%)的優(yōu)勢獲得了測評人員的認可。 同時VideoFactory也嘗試了與當(dāng)前的超大型閉源模型進行了性能的對比,該工作以超小的模型規(guī)模(僅12%~21%的參數(shù)量),在與這些模型公布的優(yōu)秀樣本對比中,取得了可匹敵的性能。該工作也展示了與Imagen Video[3]、Make-A-Video[4]和Video LDM[5]的視覺效果對比。值得注意的是,對比的方法均為當(dāng)前未開源的超大模型,對比的樣本均為各方法對應(yīng)主頁的優(yōu)秀展示樣本。Make-A-Video只生成1:1的視頻,這限制了用戶體驗。與Imagen Video和Video LDM相比,該工作的模型生成的熊貓和金毛犬具有更生動的細節(jié)。同時該工作也展示了與現(xiàn)有的其它開源模型的生成樣本對比,可以明顯看出,在畫面構(gòu)圖、時序連貫性等方面,該工作有顯著的效果領(lǐng)先。更多生成樣本展示了該工作高質(zhì)量的泛化性和穩(wěn)定性。雖然目前該工作暫未公開項目主頁,但小編發(fā)現(xiàn)作者搭建了一個數(shù)據(jù)集GitHub項目https://github.com/daooshee/HD-VG-130M),其中數(shù)據(jù)集可以通過郵件作者的方式申請。基于基礎(chǔ)模型,團隊實現(xiàn)了兩個下游視頻的生成任務(wù),用以完全釋放基礎(chǔ)模型的性能,并直接能夠與用戶交互,實現(xiàn)良好的體驗。電子科技大學(xué)和MSRA等機構(gòu)的研究人員提出了全自動化的電影生成模型。 用戶只需要給出一句簡單的電影主題,模型就可以幫用戶生成電影級畫質(zhì)(3072 x 1280)、電影風(fēng)格(多場景)和帶有音樂的高質(zhì)量電影。 目前,該論文已被ACM Multimedia 2023 Brave New Idea(BNI)接收。  作者列表:朱俊臣,楊歡,何匯國,汪文靖,拓子曦,鄭文皇,高聯(lián)麗,宋井寬,傅建龍論文地址:https:///abs/2306.07257 1.1 方法設(shè)計 作者結(jié)合了現(xiàn)有的語言和圖像生成大模型,構(gòu)建出了可生成多幕場景的視頻生成器,并采用了檢索模型助力音頻部分的生成。 由于要生成高質(zhì)量的多幕場景,視覺生成模型需要多個引導(dǎo)文本。為了讓用戶輸入的簡單且高度概括化的文本變成電影所需要的詳細「劇本」,該工作采用了ChatGPT對文本進行擴充豐富。作者設(shè)計了一套提示詞(prompts)用以實現(xiàn)該功能。這些提示詞引導(dǎo)ChatGPT形成一系列劇本,并且使得這些劇本能符合編劇的準(zhǔn)則,同時能為用戶指定的主題引入創(chuàng)新和獨特的元素。此外,劇本也能有效地發(fā)揮視頻生成模型的能力。考慮到電影與普通視頻域之間存在的差異,例如:超寬屏畫面和畫面風(fēng)格。而高質(zhì)量的電影的相關(guān)數(shù)據(jù)卻十分稀少,因此需要將預(yù)訓(xùn)練的基礎(chǔ)模型快速遷移至電影生成上。 模型大體上與前文介紹的基礎(chǔ)模型VideoFactory保持一致,并設(shè)計了新的模塊用于實現(xiàn)快速的視頻域遷移。從圖像生成模型拓展至視頻生成模型時,不同于之前的工作會訓(xùn)練所有網(wǎng)絡(luò)參數(shù),該工作固定了預(yù)訓(xùn)練的所有參數(shù),并添加了新的層對視頻的空間信息進行擬合。1)可以完全保留預(yù)訓(xùn)練中的全部知識,從而生成訓(xùn)練數(shù)據(jù)集中不包括的內(nèi)容和場景,這對于電影奇幻場景的生成尤為重要;2)可以在新的模塊中擬合多個視頻域分布,這使得對于任何視頻域數(shù)據(jù)的訓(xùn)練都不會產(chǎn)生數(shù)據(jù)域偏離的問題,并保持了網(wǎng)絡(luò)生成高質(zhì)量畫面的能力。基于這種設(shè)計,MovieFactory能夠快速地從預(yù)訓(xùn)練視頻遷移到電影畫面的生成。有了豐富的畫面,電影還需要音樂和聲效。對此,作者提出了采用檢索模型依據(jù)畫面和電影腳本為視頻匹配合適的音頻。該工作同時采用了文本到音頻和視頻到音頻的檢索模型,以保證音效的豐富性和合理性。同時對于背景音樂的選取,作者利用ChatGPT總結(jié)了故事情節(jié)和基調(diào),然后將推薦的基調(diào)類別與音樂信息檢索技術(shù)相結(jié)合,以識別合適的音樂曲目。作者選擇Stable Diffusion 2.0作為基礎(chǔ)圖像生成模型,采用WebVid-10M和基礎(chǔ)模型中提出的HD-VG-130M聯(lián)合訓(xùn)練基礎(chǔ)生成模型,并使用了少量的電影數(shù)據(jù)集進行畫面的擬合。最后采用了4x視頻超分辨率模型獲得3072×1280的高清超寬屏電影視頻。視頻部分的生成結(jié)果展現(xiàn)了模型能夠生成具有清晰畫面(沒有任何水印)和平滑物體運動的高質(zhì)量視頻。生成的視頻涵蓋真實與科幻的場景,并展示出了豐富的細節(jié)。用戶僅需給出簡短的電影主題,例如一個宇航員的太空冒險(An Astronaut Space Adventure),該模型會自動生成電影的腳本,并由此生成多幕的帶有音頻的高質(zhì)量電影。2. 短視頻生成模型MobileVidFactory另一篇來自電子科技大學(xué)、MSRA,以及羅切斯特大學(xué)等機構(gòu)的工作,提出了全自動化的移動設(shè)備短視頻生成模型。只需與用戶進行簡單的自然語言交互,模型即可生成豎屏、帶有定制化內(nèi)容和帶有音樂的短視頻。目前,該論文已被ACM Multimedia 2023 Demo接收。
作者列表:朱俊臣,楊歡,汪文靖,何匯國,拓子曦,喻永生,鄭文皇,高聯(lián)麗,宋井寬,傅建龍,羅杰波 鏈接:https:///abs/2307.16371值得注意的是,作為共同作者的羅杰波教授也是之前的視頻生成工作latent-shift[1]的作者。該工作直擊當(dāng)前最火熱的短視頻,借助高效的視頻生成模型和音頻檢索模型,結(jié)合基于文本的語音合成技術(shù),構(gòu)建出符合當(dāng)前短視頻風(fēng)格的生成框架。 該框架分為兩部分,分別是基礎(chǔ)生成部分和可選擇的定制化生成部分。在基礎(chǔ)生成中,該工作與MovieFactory一致,獨立地生成視覺和聽覺內(nèi)容。不同的是,該工作添加了可選擇的視頻插幀模型來提升整個模型輸出視頻的連貫性。在定制化生成中,作者為用戶設(shè)計了兩個可選的自定義功能。首先,模型支持在視頻中添加自定義的文本貼圖,以輔助作者概括視頻內(nèi)容和表達創(chuàng)作想法。特別的,文本覆蓋還促進了聽力障礙者的無障礙性,并迎合了不同的受眾。除此之外,為了增加個人風(fēng)格,增強短視頻的故事性和提升整體真實感和互動性,模型允許用戶在視頻中添加配音。依據(jù)用戶提供的文本,模型使用預(yù)訓(xùn)練好的TTS(Text-To- Speech)將文本轉(zhuǎn)換為配音。在這個過程中,用戶可以選擇自己喜歡的語音,并且很好地支持各種語言,如英語和漢語。該工作在生成畫面的質(zhì)量上符合短視頻的構(gòu)圖和美感。在最終的短視頻生成上,達到了豐富的創(chuàng)作表達,和實現(xiàn)了短視頻的趣味性。[1] Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation. Jie An and Songyang Zhang and Harry Yang and Sonal Gupta and Jia-Bin Huang and Jiebo Luo and Xi Yin. In arXiv, 2023. [2] Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions. Xue, Hongwei and Hang, Tiankai and Zeng, Yanhong and Sun, Yuchong and Liu, Bei and Yang, Huan and Fu, Jianlong and Guo, Baining. In CVPR, 2022. [3] Imagen Video: High Definition Video Generation with Diffusion Models. Jonathan Ho and William Chan and Chitwan Saharia and Jay Whang and Ruiqi Gao and Alexey A. Gritsenko and Diederik P. Kingma and Ben Poole and Mohammad Norouzi and David J. Fleet and Tim Salimans. In arXiv, 2022. [4] Make-A-Video: Text-to-Video Generation without Text-Video Data. Uriel Singer and Adam Polyak and Thomas Hayes and Xi Yin and Jie An and Songyang Zhang and Qiyuan Hu and Harry Yang and Oron Ashual and Oran Gafni and Devi Parikh and Sonal Gupta and Yaniv Taigman. In ICLR, 2023. [5] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models. Andreas Blattmann and Robin Rombach and Huan Ling and Tim Dockhorn and Seung Wook Kim and Sanja Fidler and Karsten Kreis. In CVPR, 2023.
|