清華系出手，推出全面對標Sora的視頻大模型

江海博覽 2024-05-12 發布于浙江

展開全文

作者 | ZeR0來源 | 智東西(ID:zhidxcom)

本文約2000字，建議閱讀8分鐘

中國首個長時長、高一致性、高動態性視頻大模型Vidu發布。

智東西4月27日報道，在今日舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上，清華大學教授、生數科技首席科學家朱軍宣布，生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。

根據公開融資信息，成立于去年3月的生數科技，是當前主要國內累計融資額及估值最高的類Sora創企，迄今已完成數億元融資，投資方包括百度風投、智譜AI、螞蟻集團以及創始成員多數來自于原字節跳動投資團隊的錦秋基金。

朱軍現場展示了Vidu與Pika、Gen-2、Sora等行業現有文生視頻大模型的生成視頻效果對比。他評價說，Vidu在16秒長期保持和語義理解等方面表現得非常突出。

▲使用相同提示詞，Vidu與Pika、Gen-2生成視頻對比

▲使用相同提示詞，Vidu與Sora生成視頻對比

▲Vidu生成視頻的部分動圖

Vidu能根據文本描述直接生成16秒高質量視頻，且生成視頻流暢連貫，沒有明顯的插幀現象。據介紹，這是因為Vidu采用的是“一步到位”的生成方式，與Sora一樣，文本到視頻的轉換是直接且連續的，在底層算法實現上是基于單一模型完全端到端生成，無需經過多個步驟的關鍵幀生成和插幀處理。

01.

一鍵生成16秒高清視頻，

Vidu具有5大特色

Vidu支持一鍵生成長達16秒、1080P分辨率的高清視頻內容，具備模擬真實物理世界、富有想象力、多鏡頭語言、高時空一致性、理解中國元素等特色。

1、模擬真實物理世界。能夠生成復雜、細節豐富的場景，且符合物理規律，例如合理的光影效果、細膩的人物表情等。

▲在輸入復雜SUV加速行駛在陡峭土路上的場景描述后，Vidu生成的視頻（受限于可上傳動圖大小，做了壓縮處理）

2、富有想象力。能夠生成真實世界不存在的虛構畫面，創造出具有深度和復雜性的超現實主義內容。

▲Vidu根據提示詞“畫室里的一艘船駛向鏡頭”生成的視頻（受限于可上傳動圖大小，做了壓縮處理）

3、多鏡頭語言。能夠生成復雜的動態鏡頭，不再局限于簡單的推、拉、移等固定鏡頭，而是能夠圍繞統一主體在一段畫面里就實現遠景、近景、中景、特寫等不同鏡頭的切換，包括能直接生成長鏡頭、追焦、轉場等效果，給視頻注入鏡頭語言。

▲Vidu根據提示詞“在一個古色古香的海邊小屋里，陽光沐浴著房間，鏡頭緩慢過渡到一個陽臺，俯瞰著寧靜的大海，最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩”生成的視頻（受限于可上傳動圖大小，做了壓縮處理）

4、高時空一致性。在16秒的時長上保持連貫流暢，隨著鏡頭的移動，人物和場景在時間、空間中能夠保持一致。

▲Vidu根據提示詞“這是一只藍眼睛的橙色貓的肖像，慢慢地旋轉，靈感來自維米爾的《戴珍珠耳環的女孩》，畫面上帶著珍珠耳環，棕色頭發像荷蘭帽一樣，黑色背景，工作室燈光”生成的視頻

5、理解中國元素。能夠理解、生成特有的中國元素，例如熊貓、龍等。

▲Vidu根據提示詞“在寧靜的湖邊，一只熊貓熱切地彈著吉他，讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映著這一場景，以生動的全景鏡頭捕捉到，將現實主義與大熊貓活潑的精神融為一體，創造出活力與平靜的和諧融合”生成的視頻（受限于可上傳動圖大小，做了壓縮處理）

02.

快速突破源于多項原創成果，

文生視頻能力加速成長中

朱軍稱其快速突破離不開5個要素：算法原理、模型架構、算力資源、數據治理、工程實現。

他談道，Vidu的快速突破源于長期積累和多項原創成果，其技術路線與Sora高度一致。2022年9月，其團隊在全球首發U-ViT網絡架構，這是全球首個Diffusion Transformer架構，這一架構提出3個月后，Sora采用的同源基礎架構DiT的論文才發表。

受限于算力限制，其團隊起初選擇做文生圖、文生3D這類計算量相對小一些的大模型研發，2023年3月在全球首發并開源基于U-ViT架構的多模態大模型UniDiffuser，在全球范圍內率先完成融合架構的大規模可擴展性（Scaling Law）驗證。UniDiffuser是在大規模圖文數據集LAION-5B上訓練出的近10億參數量模型，支持圖文模態間的任意生成和轉換，在架構上比同樣DiT架構的Stable Diffusion 3領先了一年。

同年5月，該團隊提出文生3D新算法Prolific Dreamer，今年1月發布4D框架Animatable Dreamer并實現可生成4秒視頻的文生視頻模型。

“Sora出來之后，刺激了我們攻關的速度。”朱軍說，團隊第一時間緊急啟動和攻關，3月將視頻時長突破8秒，4月突破16秒，短短兩個月實現了長視頻表示與處理關鍵技術的突破，取得了今天的效果，將視頻連貫性與動態性顯著提升。

03.

結語：推出Vidu大模型合作伙伴計劃，

共建生態推動視頻大模型發展

朱軍解釋說，Vidu的取名有多重含義，首先字面含義與“Video（視頻）”相近，更深層的含義還表達了三個愿景：

一是諧音“We do”，“我們第一時間決定我們應該要做，而且立即去做”；二是諧音“We did”，今天的進展雖然只是邁出一小步，但確實做到在這個方向能夠有突破性進展；三是“We do together”，現在的進展還在初步階段，希望與國內優質單位合作，共同實現技術進步。

大模型的突破是一個多維度、跨領域的綜合性過程，需要技術與產業應用的深度融合。為此，生數科技正式推出“Vidu大模型合作伙伴計劃”，發起合作伙伴申請通道，誠邀產業鏈上下游的企業和研究機構共同合作，推動視頻大模型發展。

申請鏈接：

https://shengshu./share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

本文首發于公眾號“智東西”（ID:zhidxcom）。智東西是國內領先的智能產業新媒體，歡迎關注。

智東西