久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    清華系出手,推出全面對標Sora的視頻大模型

     江海博覽 2024-05-12 發布于浙江
    清華系出手,推出全面對標Sora的視頻大模型
    作者 | ZeR0來源 | 智東西(ID:zhidxcom)

    本文約2000字,建議閱讀8分鐘

    中國首個長時長、高一致性、高動態性視頻大模型Vidu發布。

    清華系出手,推出全面對標Sora的視頻大模型

    智東西4月27日報道,在今日舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上,清華大學教授、生數科技首席科學家朱軍宣布,生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。

    根據公開融資信息,成立于去年3月的生數科技,是當前主要國內累計融資額及估值最高的類Sora創企,迄今已完成數億元融資,投資方包括百度風投、智譜AI、螞蟻集團以及創始成員多數來自于原字節跳動投資團隊的錦秋基金

    朱軍現場展示了Vidu與Pika、Gen-2、Sora等行業現有文生視頻大模型的生成視頻效果對比。他評價說,Vidu在16秒長期保持和語義理解等方面表現得非常突出。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲使用相同提示詞,Vidu與Pika、Gen-2生成視頻對比

    清華系出手,推出全面對標Sora的視頻大模型

    ▲使用相同提示詞,Vidu與Sora生成視頻對比

    清華系出手,推出全面對標Sora的視頻大模型

    ▲Vidu生成視頻的部分動圖

    Vidu能根據文本描述直接生成16秒高質量視頻,且生成視頻流暢連貫,沒有明顯的插幀現象。據介紹,這是因為Vidu采用的是“一步到位”的生成方式,與Sora一樣,文本到視頻的轉換是直接且連續的,在底層算法實現上是基于單一模型完全端到端生成,無需經過多個步驟的關鍵幀生成和插幀處理。

    01.

    一鍵生成16秒高清視頻,

    Vidu具有5大特色

    Vidu支持一鍵生成長達16秒、1080P分辨率的高清視頻內容,具備模擬真實物理世界、富有想象力、多鏡頭語言、高時空一致性、理解中國元素等特色。

    1、模擬真實物理世界。能夠生成復雜、細節豐富的場景,且符合物理規律,例如合理的光影效果、細膩的人物表情等。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲在輸入復雜SUV加速行駛在陡峭土路上的場景描述后,Vidu生成的視頻(受限于可上傳動圖大小,做了壓縮處理)

    2、富有想象力。能夠生成真實世界不存在的虛構畫面,創造出具有深度和復雜性的超現實主義內容。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲Vidu根據提示詞“畫室里的一艘船駛向鏡頭”生成的視頻(受限于可上傳動圖大小,做了壓縮處理)

    3、多鏡頭語言。能夠生成復雜的動態鏡頭,不再局限于簡單的推、拉、移等固定鏡頭,而是能夠圍繞統一主體在一段畫面里就實現遠景、近景、中景、特寫等不同鏡頭的切換,包括能直接生成長鏡頭、追焦、轉場等效果,給視頻注入鏡頭語言。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲Vidu根據提示詞“在一個古色古香的海邊小屋里,陽光沐浴著房間,鏡頭緩慢過渡到一個陽臺,俯瞰著寧靜的大海,最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩”生成的視頻(受限于可上傳動圖大小,做了壓縮處理)

    4、高時空一致性。在16秒的時長上保持連貫流暢,隨著鏡頭的移動,人物和場景在時間、空間中能夠保持一致。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲Vidu根據提示詞“這是一只藍眼睛的橙色貓的肖像,慢慢地旋轉,靈感來自維米爾的《戴珍珠耳環的女孩》,畫面上帶著珍珠耳環,棕色頭發像荷蘭帽一樣,黑色背景,工作室燈光”生成的視頻

    5、理解中國元素。能夠理解、生成特有的中國元素,例如熊貓、龍等。

    清華系出手,推出全面對標Sora的視頻大模型

    ▲Vidu根據提示詞“在寧靜的湖邊,一只熊貓熱切地彈著吉他,讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映著這一場景,以生動的全景鏡頭捕捉到,將現實主義與大熊貓活潑的精神融為一體,創造出活力與平靜的和諧融合”生成的視頻(受限于可上傳動圖大小,做了壓縮處理)

    02.

    快速突破源于多項原創成果,

    文生視頻能力加速成長中

    朱軍稱其快速突破離不開5個要素:算法原理、模型架構、算力資源、數據治理、工程實現

    清華系出手,推出全面對標Sora的視頻大模型

    他談道,Vidu的快速突破源于長期積累和多項原創成果,其技術路線與Sora高度一致。2022年9月,其團隊在全球首發U-ViT網絡架構,這是全球首個Diffusion Transformer架構,這一架構提出3個月后,Sora采用的同源基礎架構DiT的論文才發表。

    清華系出手,推出全面對標Sora的視頻大模型

    受限于算力限制,其團隊起初選擇做文生圖、文生3D這類計算量相對小一些的大模型研發,2023年3月在全球首發并開源基于U-ViT架構的多模態大模型UniDiffuser,在全球范圍內率先完成融合架構的大規模可擴展性(Scaling Law)驗證。UniDiffuser是在大規模圖文數據集LAION-5B上訓練出的近10億參數量模型,支持圖文模態間的任意生成和轉換,在架構上比同樣DiT架構的Stable Diffusion 3領先了一年。

    同年5月,該團隊提出文生3D新算法Prolific Dreamer,今年1月發布4D框架Animatable Dreamer并實現可生成4秒視頻的文生視頻模型。

    “Sora出來之后,刺激了我們攻關的速度。”朱軍說,團隊第一時間緊急啟動和攻關,3月將視頻時長突破8秒,4月突破16秒,短短兩個月實現了長視頻表示與處理關鍵技術的突破,取得了今天的效果,將視頻連貫性與動態性顯著提升。

    清華系出手,推出全面對標Sora的視頻大模型

    03.

    結語:推出Vidu大模型合作伙伴計劃,

    共建生態推動視頻大模型發展

    朱軍解釋說,Vidu的取名有多重含義,首先字面含義與“Video(視頻)”相近,更深層的含義還表達了三個愿景:

    一是諧音“We do”,“我們第一時間決定我們應該要做,而且立即去做”;二是諧音“We did”,今天的進展雖然只是邁出一小步,但確實做到在這個方向能夠有突破性進展;三是“We do together”,現在的進展還在初步階段,希望與國內優質單位合作,共同實現技術進步。

    大模型的突破是一個多維度、跨領域的綜合性過程,需要技術與產業應用的深度融合。為此,生數科技正式推出“Vidu大模型合作伙伴計劃”,發起合作伙伴申請通道,誠邀產業鏈上下游的企業和研究機構共同合作,推動視頻大模型發展。

    申請鏈接:

    https://shengshu./share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

    本文首發于公眾號“智東西”(ID:zhidxcom)。智東西是國內領先的智能產業新媒體,歡迎關注。

    清華系出手,推出全面對標Sora的視頻大模型

    智東西

    智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。

    4189篇原創內容

    公眾號

    編輯:黃繼彥

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲国产五月综合网| 国产片AV国语在线观看手机版| 欧美成人精品三级在线观看| 男女动态无遮挡动态图| 强奷漂亮少妇高潮伦理| 人妻少妇不满足中文字幕| 国产欧美综合在线观看第十页 | 亚洲一区二区观看播放| 国产精品午夜福利合集| 人妻人人做人做人人爱| 99久久久国产精品免费无卡顿| 福利免费观看体检区| 欧美XXXX色视频在线观看| 在线看无码的免费网站| 精品久久久久久无码中文野结衣| 高清中文字幕一区二区| 国产综合久久亚洲综合| 亚洲中文字幕人妻系列| 亚洲AV中文无码乱人伦| 久久综合久中文字幕青草| 久亚洲一线产区二线产区三线产区| 华人在线亚洲欧美精品| 国产精品久久久久久超碰| 国产欧美日韩亚洲一区二区三区 | 中文字幕有码无码AV| 鲁丝片一区二区三区免费| 中文人妻AV大区中文不卡| 久久精品国产亚洲av天海翼| 99热国产这里只有精品9| 日韩在线观看精品亚洲| 亚洲熟妇AV一区二区三区漫画| 国产精品SM捆绑调教视频| 麻豆一二三区精品蜜桃| 国产综合视频一区二区三区| 不卡国产一区二区三区| 无码人妻精品一区二区三区久久久| 丁香五月婷激情综合第九色 | 伊人色综合久久天天小片| 国产精品成人中文字幕| 国内精品久久久久影院优 | 国产清纯在线一区二区|