9月24日,字節跳動旗下火山引擎在深圳舉辦AI創新巡展,并首次對外發布豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款AI大模型,并公布了多項AI大模型的全新升級,以一種全新的姿態迎接AI時代的到來。 雷科技此次受邀參與巡展,在活動現場就發現了不一樣的東西,現場設置了四個不同的展示區,用來展示目前AI大模型在C端最受歡迎的四款應用:AI奇遇、AI音樂、AI智能助手和AI Bot,分別對應娛樂、創作、問答和個性化AI需求四大板塊。 圖源:雷科技 這一系列的AI應用中,AI Bot受到了許多人的關注,這是一個全新的AI應用開發平臺,利用AI大模型的強大理解能力,幫助用戶開發專屬于自己的AI應用。你不需要懂得編程、調試、DeBug,只需要按部就班地給出自己的需求,剩下的一切AI都會幫你完成。 此前,雷科技上線的小雷Bot就是基于AI Bot打造,利用雷科技過去十年積累的海量文章與評測數據,為讀者提供購買咨詢、產品問答等多項功能。 而在AI奇遇中,用戶可以扮演一個角色,偶遇某些人或故事,通過用戶給出的反饋,故事也會發生相應的改變,一切均由AI實時生成,讓每個人都有獨屬于自己的故事。這項技術不僅可以讓用戶創作出屬于自己的故事,同時也能為游戲廠商提供新的創作思路,真正做到千人千面的故事情節塑造。 至于AI問答,大家估計都不陌生,作為AI大模型最早期的應用,豆包對AI問答進行過多輪升級,如今已經支持最高256K的上下文理解,并且能夠進行復雜的邏輯推理,滿足用戶多樣化的提問需求。 還差個AI音樂?別急,我們待會再來聊聊。 用AI打破視頻創作邊界在視頻創作領域,火山引擎及其背后的字節跳動,恐怕是最有發言權的,抖音在全球掀起的全民視頻創作熱潮,造就了一個全新的互聯網視頻時代。所以,火山引擎的視頻生成模型更關注用戶在實際使用時的創作流程和創作效果,而不僅僅是簡單地生成畫面和動作。 圖源:雷科技 火山引擎希望用戶可以在視頻生成模型中,得到與實際拍攝幾乎一致的畫面效果。為此他們對視頻生成模型進行了大量的優化,基于DiT架構結合高效的DiT融合計算單元,讓視頻生成模型擁有執行復雜指令的能力,并且能夠根據要求進行大動態和運鏡的切換,在專業拍攝中常用的變焦、環繞、平搖、縮放、目標跟隨等鏡頭語言效果,大模型都能做到。 借助運鏡切換功能,豆包視頻生成模型可以真正提供更真實的拍攝效果,并且讓創作者更好地展示自己的創意想法,這在以往的視頻生成大模型中少見的。 而且,火山引擎還攻克了視頻主體在運動時,經常會出現的服裝、頭飾、光影、風格突變問題。這類問題此前一直困擾視頻生成模型用戶,因為人們對連貫畫面里的突兀變化會更加敏感,所以即使只有些許的差異,也會讓觀看體驗大打折扣,而AI生成的不確定性,讓AI視頻在這方面的問題顯得尤為嚴重。 對此,火山引擎借助DiT架構的多種特性,讓視頻生成模型能夠對生成的畫面元素進行標記,并在后續的生成中時刻保持相關元素的存在。雖然并不能保證完全的一致,但是已經能夠最大程度消除明顯的服裝、配飾、風格變化等問題,確保視頻畫面不會出現易察覺的BUG。 圖源:雷科技 此外,火山引擎還解決了多動作指令互動、人物中途插入等痛點,在現場的演示視頻中,就有這樣的片段:一個女人生氣地看向側邊,然后轉頭戴上眼鏡,此時一個男人出畫面邊緣進入,擁抱住女人。雖然在傳統拍攝中,這是一個很普通的鏡頭,但是在AI視頻里,卻要求AI在表情神態、多動作執行、新元素插入等方面都不能出錯,才能生成一個合格的視頻。 隨后火山引擎還展示了多個由豆包視頻生成模型制作的AI視頻,從多人互動到運動長鏡頭,都可以在保證視頻流暢度的同時確保視頻元素的一致和主體風格不變化。在我看來已經完全滿足日常的創作需求,如果愿意花更多的時間去打磨,即使是普通人也能坐在家里用AI制作出一部大片。 為了滿足更多用戶的創作風格需求,火山引擎還引入了深度優化的Transformer結構,大幅度提升了豆包視頻生成模型的泛化能力,不僅支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風格,還支持多種比例的視頻生成,讓模型能夠被應用到各個領域。 顯然,這也是火山引擎對豆包視頻生成模型的期待,成為每一個創作者的助手,讓每個人都能創作出屬于自己的作品。 豆包AI模型Pro升級豆包視頻生成模型并非巡展中唯一的看點,火山引擎同時還宣布了豆包通用模型、音樂模型等多個模型的全面升級,現在,豆包AI大模型可以給大家在更多領域提供更好的體驗。 比如前面提到的AI音樂,在展示區中雷科技就已經體驗到了其強大的創作能力,在極短的時間里就能生成一首朗朗上口的音樂,根據要求切換不同的曲風并生成歌詞??梢哉f,豆包音樂生成模型已經成功打通了整個AI音樂的創作鏈路,普通的創作者不需要再糾結歌詞、曲風和演唱效果,只需要說出要求,然后點擊生成即可。 雖然現場試用時感覺創作流程非常簡單,背后卻是火山引擎的「負重前行」,通過對音樂模型的全面升級與優化,結合獨特的音樂生成通用架構和全新的解碼模型,豆包音樂生成模型能夠以秒為單位完成音樂生成,并且呈現出更真實的演唱效果。 圖源:雷科技 實話說,在現場聆聽演示音樂時,周圍不少嘉賓都下意識發出感嘆:“這個真的不錯”,如果不提前說是AI創作的話,估計不少人會誤以為是某個新銳歌手的作品。 從視頻到音樂,火山引擎已然攻克了AI創作的兩大難關,并且完成了整個AI創作鏈路的整合:豆包通用模型完成故事腳本、文生圖模型完成前期視覺設定、視頻生成模型與音樂模型完成作品素材創作,最后再由剪映提供AI智能剪輯支持,讓視頻創作的門檻與難度得到前所未有地降低。 圖源:雷科技 火山引擎還在現場展示了全新的數字人生成應用,僅需數分鐘即可完成數字人生成,并在數秒內進行音色克隆。簡單的操作就可以讓用戶得到一個專屬數字人,擬真的神態和語氣,可以滿足直播、在線教學、智能客服對話等多個領域的應用。 此外,豆包的數字人還能與同聲傳譯模型結合,讓數字人隨時切換不同的語言進行對話,這項功能在現場也引起了許多關注。近年來,出海、海外直播市場已經成為電商生態的另一個支柱,但是能夠熟練掌握外語的主播數量卻遠無法滿足市場需求,利用數字人+同聲傳譯模型制作的外語主播,將有望成為市場的新選擇,這也是火山引擎向泛領域進軍的一個重磅項目。 圖源:雷科技 從視頻、音樂到數字人,火山引擎正在構建一個涵蓋多領域的AI創作生態,推動著AI技術走向更加廣泛的行業應用。未來,隨著這些技術的持續優化與普及,無論是內容創作者還是企業,都能夠在AI生態中找到更高效的創作方式,開啟全新的智能化創作時代。 讓所有人都能用上AI為了滿足日益高企的AI模型需求,火山引擎一直在升級大模型的承載能力。目前業內多數大模型最高支持300K甚至100K的TPM(每分鐘token數),而豆包大模型的默認并發流量標準已經提高到800K TPM,是行業普遍標準的2-8倍以上,并且允許用戶靈活擴容。 與業界最高并發流量標準相輔的,還有進一步降低的算力成本。 在會后的采訪中,火山引擎CEO譚待提到,火山引擎是業內最早降低算力成本的大模型團隊之一,截至目前豆包大模型的算力定價已經低于行業99%,目前定價僅為0.0008元/千Tokens,引領算力成本進入「厘」時代。 譚待認為,只有算力成本降低,才能解鎖更多的應用場景,降低開發者的進入門檻,并且減少運營成本支出,才能形成更好的AI應用生態。而且,降低成本也帶來了更高的調用量,讓大模型獲得更好的成長,得以進行快速的迭代升級。 在今年5月份推動降價后,僅4個月的時間豆包調用量就達到每天13000億次,是5月份的10倍,市場里的AI應用覆蓋增長顯著,而且火山引擎在降價的同時還在提升大模型的整體能力,降價提質也讓更多的開發者熱衷于豆包大模型。 作為字節跳動的2B云平臺,火山引擎此前就對企業開放了大量的底座模型,這在大模型團隊中并不多見。針對這個問題,譚待也做了進一步的解讀,火山引擎選擇開放底座大模型的初衷就是推動行業創新,通過對豆包大模型的技術進行整合,為企業端提供更安全、穩定的底座大模型,并非簡單地將豆包大模型丟給企業,而是從企業端的需求出發,提供更多的服務與應用,助力企業進行AI創新。 此外,采訪中還提到了Sora,作為最早的視頻生成模型之一,Sora的問世一度引起廣泛關注,但是至今為止Sora仍未公開發布,以至于被業內稱之為「期貨」。因為對算力的高要求,視頻生成大模型的全面開放一直存在不小的阻力,這也讓我們擔心豆包視頻生成大模型是否可以在短期內放出。 對此,譚待充滿了信心,因為豆包并非一個獨立的視頻生成模型,其本質上是依托于豆包通用模型等一系列技術的成果,所以許多技術挑戰在此之前就已經解決了,同時火山引擎也一直在優化視頻生成模型的效率,使其能夠更快地進入公開市場,目前在即夢AI等功能里已經可以申請內測體驗,并且在國慶節后會放出更多的公開API。 譚待在采訪中還特別強調了技術積累和長期規劃的重要性。他指出,火山引擎的目標不僅僅是解決當前的市場需求,更是在為未來的AI發展打下堅實的基礎。通過持續優化底層技術架構,火山引擎能夠以更低的成本提供更高質量的服務,從而保持技術領先優勢。 最后,譚待認為隨著AI技術的不斷成熟,擁有龐大用戶和企業支持的火山引擎將繼續保持在行業內的領先地位。未來幾年,火山引擎將持續專注于技術深耕和行業落地,通過更高效、更智能的AI解決方案幫助企業實現數字化轉型和創新發展。 |
|