作者 | ZeR0來源 | 智東西(ID:zhidxcom) 本文約2000字,建議閱讀8分鐘 中國首個長時長、高一致性、高動態性視頻大模型Vidu發布。 智東西4月27日報道,在今日舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上,清華大學教授、生數科技首席科學家朱軍宣布,生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。 根據公開融資信息,成立于去年3月的生數科技,是當前主要國內累計融資額及估值最高的類Sora創企,迄今已完成數億元融資,投資方包括百度風投、智譜AI、螞蟻集團以及創始成員多數來自于原字節跳動投資團隊的錦秋基金。 朱軍現場展示了Vidu與Pika、Gen-2、Sora等行業現有文生視頻大模型的生成視頻效果對比。他評價說,Vidu在16秒長期保持和語義理解等方面表現得非常突出。 ▲使用相同提示詞,Vidu與Pika、Gen-2生成視頻對比 ▲使用相同提示詞,Vidu與Sora生成視頻對比 ▲Vidu生成視頻的部分動圖 Vidu能根據文本描述直接生成16秒高質量視頻,且生成視頻流暢連貫,沒有明顯的插幀現象。據介紹,這是因為Vidu采用的是“一步到位”的生成方式,與Sora一樣,文本到視頻的轉換是直接且連續的,在底層算法實現上是基于單一模型完全端到端生成,無需經過多個步驟的關鍵幀生成和插幀處理。 01. 一鍵生成16秒高清視頻, Vidu具有5大特色 Vidu支持一鍵生成長達16秒、1080P分辨率的高清視頻內容,具備模擬真實物理世界、富有想象力、多鏡頭語言、高時空一致性、理解中國元素等特色。 1、模擬真實物理世界。能夠生成復雜、細節豐富的場景,且符合物理規律,例如合理的光影效果、細膩的人物表情等。 ▲在輸入復雜SUV加速行駛在陡峭土路上的場景描述后,Vidu生成的視頻(受限于可上傳動圖大小,做了壓縮處理) 2、富有想象力。能夠生成真實世界不存在的虛構畫面,創造出具有深度和復雜性的超現實主義內容。 ▲Vidu根據提示詞“畫室里的一艘船駛向鏡頭”生成的視頻(受限于可上傳動圖大小,做了壓縮處理) 3、多鏡頭語言。能夠生成復雜的動態鏡頭,不再局限于簡單的推、拉、移等固定鏡頭,而是能夠圍繞統一主體在一段畫面里就實現遠景、近景、中景、特寫等不同鏡頭的切換,包括能直接生成長鏡頭、追焦、轉場等效果,給視頻注入鏡頭語言。 ▲Vidu根據提示詞“在一個古色古香的海邊小屋里,陽光沐浴著房間,鏡頭緩慢過渡到一個陽臺,俯瞰著寧靜的大海,最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩”生成的視頻(受限于可上傳動圖大小,做了壓縮處理) 4、高時空一致性。在16秒的時長上保持連貫流暢,隨著鏡頭的移動,人物和場景在時間、空間中能夠保持一致。 ▲Vidu根據提示詞“這是一只藍眼睛的橙色貓的肖像,慢慢地旋轉,靈感來自維米爾的《戴珍珠耳環的女孩》,畫面上帶著珍珠耳環,棕色頭發像荷蘭帽一樣,黑色背景,工作室燈光”生成的視頻 5、理解中國元素。能夠理解、生成特有的中國元素,例如熊貓、龍等。 ▲Vidu根據提示詞“在寧靜的湖邊,一只熊貓熱切地彈著吉他,讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映著這一場景,以生動的全景鏡頭捕捉到,將現實主義與大熊貓活潑的精神融為一體,創造出活力與平靜的和諧融合”生成的視頻(受限于可上傳動圖大小,做了壓縮處理) 02. 快速突破源于多項原創成果, 文生視頻能力加速成長中 朱軍稱其快速突破離不開5個要素:算法原理、模型架構、算力資源、數據治理、工程實現。 ![]() 他談道,Vidu的快速突破源于長期積累和多項原創成果,其技術路線與Sora高度一致。2022年9月,其團隊在全球首發U-ViT網絡架構,這是全球首個Diffusion Transformer架構,這一架構提出3個月后,Sora采用的同源基礎架構DiT的論文才發表。 ![]() 受限于算力限制,其團隊起初選擇做文生圖、文生3D這類計算量相對小一些的大模型研發,2023年3月在全球首發并開源基于U-ViT架構的多模態大模型UniDiffuser,在全球范圍內率先完成融合架構的大規模可擴展性(Scaling Law)驗證。UniDiffuser是在大規模圖文數據集LAION-5B上訓練出的近10億參數量模型,支持圖文模態間的任意生成和轉換,在架構上比同樣DiT架構的Stable Diffusion 3領先了一年。 同年5月,該團隊提出文生3D新算法Prolific Dreamer,今年1月發布4D框架Animatable Dreamer并實現可生成4秒視頻的文生視頻模型。 “Sora出來之后,刺激了我們攻關的速度。”朱軍說,團隊第一時間緊急啟動和攻關,3月將視頻時長突破8秒,4月突破16秒,短短兩個月實現了長視頻表示與處理關鍵技術的突破,取得了今天的效果,將視頻連貫性與動態性顯著提升。 ![]() 03. 結語:推出Vidu大模型合作伙伴計劃, 共建生態推動視頻大模型發展 朱軍解釋說,Vidu的取名有多重含義,首先字面含義與“Video(視頻)”相近,更深層的含義還表達了三個愿景: 一是諧音“We do”,“我們第一時間決定我們應該要做,而且立即去做”;二是諧音“We did”,今天的進展雖然只是邁出一小步,但確實做到在這個方向能夠有突破性進展;三是“We do together”,現在的進展還在初步階段,希望與國內優質單位合作,共同實現技術進步。 大模型的突破是一個多維度、跨領域的綜合性過程,需要技術與產業應用的深度融合。為此,生數科技正式推出“Vidu大模型合作伙伴計劃”,發起合作伙伴申請通道,誠邀產業鏈上下游的企業和研究機構共同合作,推動視頻大模型發展。 申請鏈接: https://shengshu./share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph 本文首發于公眾號“智東西”(ID:zhidxcom)。智東西是國內領先的智能產業新媒體,歡迎關注。 ![]() 智東西 智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 4189篇原創內容 公眾號 編輯:黃繼彥 |
|