【新智元導讀】Runway的Gen-1還沒內測完,Gen-2就以迅雷不及掩耳之勢發布了。這次的效果更加炸裂,AI大導離淘汰人類,又近了一步。剛剛,仿佛一聲驚雷炸響,Runway發布了文字生成視頻模型Gen-2。宣傳詞也是非常炸裂——「say it,see it」,只要你說得出來,它就能給你做出來。科幻小說里的超能力成真了!可以說,有了Runway Gen-2,你就能用任意的圖像、視頻或文本,生成一段酷炫大片,想要啥風格,就有啥風格。這個速度簡直讓人目瞪口呆:Gen-1的內測都還沒拿到呢,Gen-2就來了!此前,Runway在文本到圖像領域就曾經大放異彩,大名鼎鼎的Stable Diffusion,就是Runway開發的。在今年2月,Runway就提出了首個AI編輯模型Gen-1。顧名思義,Gen-1可以在原視頻的基礎上,編輯出咱們想要的視頻。無論是粗糙的3D動畫,還是用手機拍出來的搖搖晃晃的視頻,Gen-1都可以升級出一個不可思議的效果。 論文地址:https:///abs/2302.03011比如用幾個包裝盒,Gen-1就可以生成一個工廠的視頻,化腐朽為神奇,就是這么簡單。而相比Gen-1,Gen-2獲得了史詩級的升級——可以從頭開始生成視頻。而根據目前的演示片段看來,Gen-2的效果似乎暫時比不上Gen-1,沒有那么逼真。但是,這畢竟是AI文生視頻0到1的第一步。AI導演做到這一步,已經夠人類顫抖的了。
而獲得內測資格的幸運網友,已經開始動手生成自己的電影了。可以看出,無論是宮崎駿風格的日系動畫,還是寫實風格的鏡頭特寫,或者魔幻特效的電影大片,Gen-2都不在話下。雖然目前的畫質可能還不夠細膩,但畢竟是從0生成的視頻,一旦日后優化好,大導們的飯碗怕是捧不穩了。
Mode 01:Text to Video(文字生成視頻)一個文本提示,就能合成出任意風格的視頻,不怕它生不出來,只怕你想不到。提示: 在紐約市的一間閣樓里,傍晚的陽光透過窗戶溫柔地灑進屋內。輸出: Mode 02:Text + Image to Video(文字+圖像生成視頻)輸入一幅圖,再加一句prompt,直接就給你變成了視頻。輸入圖像: 驅動提示: 在一個低角度拍攝的畫面中,男子正沿著街道行走,周圍酒吧的霓虹燈照亮了他的身影。輸出: Mode 03:Image to Video(圖像生成視頻)這個不用解釋了,你給它一張圖片,它給你秒變一段視頻。多種風格,隨你選擇。輸入圖像: 輸出: Mode 04:Stylization(風格化)只需要把你想要疊加的風格用圖片或者文字疊加上去,多魔幻的風格都立馬生成,秒變好萊塢大片。原始視頻: 驅動圖像: 輸出: Mode 05:Storyboard(故事版)將模擬的場景一拉,就變成了風格化和動畫化的渲染圖,前期制作一鍵簡化。輸出&輸出對比: Mode 06:Mask(掩碼)在你的視頻中分離出特定的對象,然后通過prompt,想怎么改就怎么改,比如下圖中,金毛秒變斑點狗。輸入視頻: 驅動提示: 輸出: Mode 07:Render(渲染)只要輸入圖像或提示,無紋理的渲染立馬變成現實的輸出,深度和真實感震撼人心。輸入視頻: 輸出: Mode 08:Customization(個性化)輸入&輸出對比: 
訓練圖像: 從生成結果來看,Gen-2的前景,實在是太令人著迷了。(Gen-1的內測申請在這里,http:///A6Cu1cdy)。雖然Meta和谷歌也有類似的文本到視頻模型(Make-a-Video和Phenaki),生成的剪輯更長、更連貫。但這些體量更大的公司并沒有投入多大的資源,相比之下,Runway的團隊只有區區45人。其實,Runway自2018年以來,就一直專注于研究AI工具,并在去年年底籌集了5000萬美元。 有趣的是,Stable Diffusion的初始版本,就有Runway的貢獻。只不過后來被Stability AI普及,并有了更進一步的發展。而這也告訴我們,初創公司在生成式AI上的潛力,是多么驚人。

參考資料:
https://research./gen2 https://www./2023/3/20/23648113/text-to-video-generative-ai-runway-ml-gen-2-model-access
|