文/支星晨 上海觸訊信息科技有限公司副總經理 來源: 閱門戶 本文約5000字,預計一盞茶時間閱讀完畢 商務君按:近日,OpenAI首席技術官米拉·穆拉蒂在接受《華爾街日報》采訪時表示,Sora將在今年推出,“可能要等幾個月”。文生視頻模型Sora的出現,再次引發出版業對生成式AI領域的關注,Sora會給出版業帶來哪些影響?我們能用它來做什么?不會又有崗位要被人工智能取代了吧?! 最近,在生成式AI領域,最熱的新聞莫過于Sora的出現。 Sora是一個由OpenAI公司打造的文生視頻的AI模型,與ChatGPT、midjourney等一樣,是又一個AIGC(人工智能生成內容)的模型,只不過生成的模態不同,這回變成了視頻,當然,這個“只不過”是需要打引號的,因為從圖文到視頻這一步實在是跨度太大、太驚艷了。 OpenAI官網首圖,Sora成為當前絕對的“明星模型” 輸入一些提示語,Sora模型就能生成一段連貫的60秒視頻,并且具備電影級的清晰度、鏡頭調度、立體感、人物與場景細節,甚至還能駕馭各類風格,不光能寫實,還能做出動畫短片、科幻片段,等等。 相信大家已經在網上看到了很多截取的效果片段,尤其是下面這一段,根據官方提供的提示語,Sora可以生成下面的視頻: 提示語:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. 是不是很神奇,尤其是最后人物臉上的細節,早就不是半年前midjourney上那種還可能出現三個耳朵、六根手指的圖片時代能相提并論的了。 事實上,除了廣為流傳的那幾段,我倒是覺得下面這些也很驚艷,皆由Sora直接生成且沒有經過任何剪輯加工: 難怪有人開玩笑說,坐落于洛杉磯市郊山上的HOLLYWOOD地標可以換成SORAWOOD了。 由本文作者使用midjourney通過AI生成的效果圖 其實早在Sora之前,市面上并非完全沒有AI生成視頻的模型。如著名的Runway,其發布的Gen-2模型,在去年還火了一把,當時是因為其更新迭代了“動態筆刷”技術,即可以指定生成的視頻中的某一部分進行動態渲染,實現更符合實際視頻創作的需求。 Runway演示AI視頻的動態筆刷功能 然而,以Runway為代表的這些視頻生成AI模型,主打的還是“圖片生成視頻”的概念,且視頻長度只有2~4秒,這一點我跟周鴻祎老師的觀點一致,這些模型還只是一種基于靜態圖像的“動態延伸”,有算法、有AI的參與,但是與midjourney這種生成圖片的方式,其實并不完全一致,所以盡管這并不是新鮮領域,但是經過親身體驗,這些生成的視頻,很多時候使用起來并不理想。 但是Sora則不同,它使用的世界模型技術,以及更復雜、更貼合人腦對動態畫面的想象力,能讓它脫穎而出,而且時長一下子達到了60秒,高度提升了不止一星半點。 Sora的出現,讓很多出版行業的同仁們也躍躍欲試,但是很遺憾,還沒有辦法直接體驗,目前只對部分專業人士開放了通道。相信在不遠的將來,一定會迎來公測。 那么問題來了,文生視頻模型,尤其是如此強悍的文生視頻模型的出現,可能給出版業帶來哪些影響和新思路? 六種出版行業涉及的視頻門類 要想回答這個問題,不妨撇開AI不談,先捋一下,出版業目前在哪些地方用到了“視頻”這種模態。 1.音像出版物 首先對于出版業,“視頻”并不是一個陌生的模態,很久以前就有“音像出版物”的概念,載體是錄像帶、光盤,內容很多是影片、電視劇、電視節目等這類“長視頻”。 2.電子出版物 后來到了互聯網時代、移動互聯時代,尤其是個人電腦、智能手機的發展,逐漸產生了“電子出版物”的概念,其涵蓋的種類更復雜,但是視頻這種模態本身,依然是電子出版物重要的組成部分,只不過以前放在光盤里,現在換成數字媒介罷了,存儲介質可能是u盤之類的移動存儲設備。 3.融合出版內容資源矩陣中的一部分 隨著出版進入“融合”時期,紙質圖書出現了配套多媒體資源的概念,在這些內容矩陣中,視頻和音頻一樣,是最為常用的形態之一。這些配套的視頻,往往是針對教輔類圖書的解讀、科技類圖書的演示視頻、社科圖書的拓展閱讀等。 4.在線視頻課程 作為獨立的內容存在于平臺上,并不配套某本特定紙書,是這類視頻與第三類視頻最大的區別。當前,隨著出版社自身的相關部門、人員、技術的合作建立,已經有出版社構建了自己的多端平臺,如APP、小程序等。其中,轉化率最好的,除了電子書以外,就是視頻課程,這些課程往往依托出版社本身紙書的龐大銷量,作為學生家長的“配套選擇”,為不少出版社在線上領域賺取了“第一桶金”。 這類視頻,其實通過目前的“AI數字人”技術,已經完全可以實現在線生成,而不一定非要找真人拍攝。 5.圖書AR(增強現實技術)的視頻素材 這種類型可能不是每個編輯都非常熟悉。事實上,圖書AR,在大概是五六年前已經“火”了一波。但我曾經在當時就提過一個觀點,所有的新技術,都需要“天時地利人和”才能真正實現大規模商業化。AR技術,就有點“生不逢時”的感覺,由于當時的制作成本高,技術普及難度高,又需要APP的支持,很多讀者使用起來不方便,最多是一種“噱頭”。但是我認為,在不遠的將來,AR應該能夠“卷土重來”,原因我們等會兒再分析。 在圖書AR的領域,最常見的,就是通過打開特定APP的攝像頭,對準圖書的插圖,然后手機畫面上出現相應的內容。而這里的“內容”,我們在各種媒體上看到過很多酷炫的3D、動畫效果,但實際上,出版領域最具性價比的內容還是視頻,通過制作這些視頻,實現圖書AR的效果,某種程度上還是很有吸引力的。然而即使是做一個視頻,對于行業來說,也不是一筆小的經費,更別提做3D內容了。 6.出版社自媒體 到了2024年,出版社的公眾號、小紅書、抖音號、視頻號看上去都很“紅火”,然而問題是,又有幾家出版社真的做到了這兩點:持續輸出、產生轉化? 在自媒體領域,視頻尤其是短視頻,是需求量最大的內容,可是我看到的情況是,很多社還停留在“為了做賬號而做賬號”的階段,有些編輯為了完成發布數量的考核指標,甚至出現了簡單堆砌文字、圖片充數的現象,更別提專門花時間去想視頻腳本、去拍攝了。 “短”視頻更適合用AI生成 上面我們簡單列舉了六種出版行業涉及到的視頻門類,而對于目前以Sora為代表的文生視頻模型來說,顯然,其中有些領域是它短期內還無法駕馭和干預的。尤其是音像出版物、電子出版物,它們的來源要求就不同,往往是既定的、攝制好的內容,而且審核要求也相對嚴格一些。 更重要的是,這些視頻是典型的“長”視頻,時間長度的要求決定了暫時不可能也沒必要通過AI生成。 所以,在我看來,AI視頻能最先給出版業帶來沖擊性影響力的,就是上述一些場景中,比較“短的”視頻。比如書本配套的一些視頻、圖書AR的視頻素材、出版社自媒體用到的視頻。 這個“短”需要打個引號,是因為并不一定是從時長的角度區分的,而是有些流程簡單、需求簡單的視頻,也可以讓AI嘗試去完成。 形成出版社自己的AI視頻資源庫 AI的強項,首先一定是效率。 這就給我們帶來一個啟發。我國出版社在目前的融合發展大環境下,有一個問題是非常值得注意的,那就是:極度缺乏數字資源。 因此,AI在視頻領域由Sora引起的這一波新的熱潮,我相信會讓更多可能這個行業里原本并不太看好人工智能的從業者,也不得不去認知其帶來的深刻變革。 所以,通過此類模型,幫助出版社建立起自己的AI資源庫,并通過標引等手段,植入社內CMS資源管理系統,成為編輯們日常可用可參考的素材,是非常有價值的探索。 并且出版業有個優勢,就是(AIGC所需的)“生成指令”是天然存在的,海量的專業、精細的文本內容,都是孕育豐碩資源素材的黑土地。 出版社做自媒體的新思路 出版社的自媒體,雖然很多社目前并沒有做出很大的成績,只有少數擁有一定規模的粉絲量,但是自媒體平臺作為這個時代最為重要的線上營銷渠道之一,肯定不能完全放棄這個領地。 前面我們已經提到,面對自媒體的短視頻制作,很多數字部門的編輯是望而卻步的,是因為對于“非專業人士”,這樣一個工作,其實需要耗費非常多的精力,效果還未必好。 因此,Sora的出現,顯然給這些編輯帶來了福音,而且從客觀上說,自媒體領域對內容的種種要求并不是特別高,很適合“試錯”。 那么問題來了,目前Sora還沒有公測,我們有什么思路,通過一些現有的視頻AI工具去做一些嘗試,為后面做準備(畢竟,按照現在的速度,Sora公測以及國內出現類似模型的時間肯定不會太晚)。 我覺得首先有必要強調一下“思路”的重要性,我們在自媒體做出版物相關的短視頻,一定是有轉化的需求的,而不是真的讓你在平臺上隨便搞創作。那么很容易想到的,就是借助書中的內容,快速生成類似電影預告片的畫面,然后配上一些輔助性的講解,形成一個簡單的圖書營銷視頻。 舉個例子,比如我們要做一個推廣《小王子》這本書的視頻,完全可以參考國外某位“大神”使用AIGC工具生成一個科幻大片的預告片的做法。 國外一位“大神”使用midjourney和Runway,打造了十分驚艷的科幻片段 下面是我的思路: 第一步,別先想著打開工具,而是先思考大綱,我的想法是,做一個跟《小王子》內容有關的短動畫,配上動人的音樂和解讀,讓讀者感受這本書的魅力。那么這個時候可以借助類似“文心一言”這樣的AI生成文字工具做一些規劃,甚至寫一下分鏡腳本,當然還包括解說文本。 第二步,思考整理腳本,確認好以后,使用《小王子》里的內容素材,結合midjourney這類AI生成圖片工具,生成一些備用圖片。 第三步,根據腳本,仔細篩選圖片,并試著開始使用以Runway為代表的的目前已經可以公開使用的AI生成視頻工具,來生成一些片段視頻。 第四步,還是整理、整合的工作,我的習慣是先定音樂,然后將全部的素材使用剪輯工具剪輯成符合音樂節奏的視頻,最后將解說文本使用AI語音工具轉化成需要的男聲或女聲解說,這樣一個簡單的短視頻即可完成。 有機會我真的會嘗試用這種方法做一個類似這樣的圖書宣推視頻,等到文生視頻模型可以實際公測使用的時候,我還會試著直接用文字生成一段視頻,比較二者的異同,分享給諸位。 理解AIGC的本質價值,避免定位偏差 此次Sora的發布,讓我又想重提一下很多人對生成式AI在理解上存在的局限,他們往往想方設法讓AI在一些垂直專業領域去“完全完成”某個任務,但這并不是,至少現在并不是這些AI模型存在的價值,目前的AIGC領域,其實更多的是能夠“用比較專業的方式,完成大規模的工作”,核心在于降本增效。 從這個角度說,我個人目前只把市面上絕大多數的AIGC工具當作“一個工具”,或者“一個精明能干不知疲倦的合作者”,它們并不是真正意義上的思想家、教師、藝術創作者。放在出版業也是一樣的道理,你不能真的把它當作一個影像內容的“約稿作者”。 舉個例子,你需要一個俯瞰城市街景的短視頻,而此時此刻你就站在一棟寫字樓的窗邊,以往沒有AI的時候,其實你下意識地就會直接拿出手機或相機拍攝,可能不超一分鐘,就能收獲一段不錯的素材。 現在有了AI,有的朋友下意識地變成了“AI腦”,他們可能會用各種AI工具搗鼓半天,拼命想辦法讓AI生成想要的效果,但是結果往往不盡人意,而且浪費了時間。 而這個時候,有的編輯則會來一句“好像也不好用嘛”,然后就不了了之了,這個是傳統編輯在面對新技術的時候經常會出現的一種情況。 其實我們一定要明白一點:我們不是在做AI,我們還是在做產業。 我們不能靠AIGC解決一切,當然更不能守著自己的一畝三分地完全與新技術隔離,而是要從產業的角度,找到重塑價值鏈的思路與方法,我已經反復強調,想法遠比工具更重要。就像前面我舉的做《小王子》圖書短視頻的例子,還要學會在不同模態之間巧妙地整合技術、活學活用,真正讓AI為我所用。
|
|