2022 年的熱門詞匯有什么?AIGC 當之無愧位列其中,甚至將名列前茅。 從 5 月的 Disco Diffusion 和 DALLE2 引起的 AI 作畫潮流,到 11 月的 chatGPT 在一周內完成了百萬用戶注冊,期間海內外出現了無數個 AIGC 的產品和創業公司,共同掀起了 AI 創作的熱潮。 不得不說,在整個 AIGC 浪潮中,美國一直主導著技術,并將其開源;中國的產品和技術更多在跟隨美國的步伐。其實,AIGC 的概念也來自于中國本土——在美國,更常見的說法是Generative AI,即生成式AI。 其實,AIGC 是 Generative AI 的子集。因此在本文中,我們將用 GA 來統稱這一年的生成式 AI 的進展。 AI 領域還有一個名詞叫做 AGI(通用人工智能),可以被理解為一個強人工智能的終極目標,其目的是系統性地解決方案,執行人類能夠完成的“任何”任務。而想要實現 AGI,生成式 AI 是不可或缺的一步?;蛘哒f,當下人類最有可能接近創造 AGI 的方式,就是將一個個碎片化的生成式 AI 能力,集成在一個智能平臺上,來模擬 AI 的智力和高度適應性。 AGI 早在幾十年前的科幻作品中就已經有了很多不同的展現形式,其共同的特點是有著強大的自然語言理解(NLU)能力,這就是今天掀起生成式 AI 風浪的主要技術。 其實,AIGC 也好,生成式 AI 也好,雖然是在今2022年獲得關注,但并不是2022年才出現的。 底層技術已經默默突破了幾年,之所以生成式 AI 會在2022年出現在更多普羅大眾面前,歸根結底是背后的技術再上了一步臺階,可以向公眾發布以供廣泛使用。 以大語言模型(large language models,以下簡稱“LLM”)為基礎的 text-to-X(文本到任意)技術再在2022年有了突破性進展,分別在 text- to-image(文本到圖片)、AI-generated-text(AI 生成文字)、text-to-video(文本到視頻)、generative code(生成式代碼)等領域出現了值得全球關注的應用。 技術在2022年取得突破性進展,并將其開源,將 AI 結果產出的時間大大縮短,產出精度更強。比如 OpenAI 所用的 GPT 技術,其 GPT1 在 2017 年就已經出現,現在 chatGPT 所采用的 GPT3.5 則是在2022年出現。 盡管從 2014 年 AlphaGO 戰勝柯潔開始,人類對于 AI 就抱有最大的希望,此后不停出現“AI 元年”的說法,但過去幾年,AI 的應用和底層技術都沒有實現更大的突破,這又讓大家對于 AI 心灰意冷。 到 2022 年,AI 成為生產工具,帶來了商業化價值,或許才終將迎來“AI 元年”。 ![]() 生成式AI 2022大事年表,36氪制圖 一、創投:燒錢的未來,注定是少數人的游戲在 GPT-3 發布的兩年內,風投資本對 AIGC 的投資增長了四倍,在 2022 年更是達到了 21 億美元。 正如前文所說,GA 底層技術的突破,創造出了更多細分賽道,比如 Disco Diffuison 和 Stable Diffusion 正在加快藝術創作的速度,copy.ai 和 Jasper 在通過 AI 完成文案寫作,Mutable.ai 和 Github Co-pilot 以 AI Coding 的方式提高編程效率。 細分賽道越多,意味著想象空間越大。而一級市場最擅長為想象空間買單。 當然,其中一部分取得融資的公司采用的的確是時下最先鋒的 GA 模型,比如種子輪獲得 1.01 億美元的 StabilityAI,但很多獲得融資的公司,也不過是用以往的 AI 模型蹭上了熱度而已。這加大了投資人和機構的判斷難度,自然會導致一級市場在短期內,比如 2023 年的混亂。 ![]() 來源:PitchBook 之所以使用最新模型的 GA 創業公司比例不高,除了一部分公司想要“走捷徑”直接偷換概念外,大模型的訓練,原本就是燒錢、砸人還不一定有成效的事情。以2022年先后推出 AI Art 賽道明星項目 DALLE2 和對話式 AI 爆款的 chatGPT 的母公司 openAI 來說,其大模型 GPT1 從 2017 年就開始訓練,直到 GPT3 出現才逐漸變得易用、好用。而 chatGPT 之所以風靡全球,是因為其背后是比 GPT3 更高級的 GPT3.5。 根據公開資料,GPT-3 訓練的僅是硬件和電力成本高達 1200 萬美元(約 7500 萬人民幣),GPT3.5 只高不少。 如此高額的投入、大量的迭代時間,顯然并不是初創公司能夠完成的。 這就決定了,初創公司只能依靠開源的模型,進行在具體應用側的創新??墒沁@樣一來,壁壘變低,對于客戶和用戶來說,選項也變多了,那么應用創新的商業價值就會變低。技術價值和商業價值都不夠的情況下,一級市場自然不會買單。 其實在 2022 年,就已經出現了此類現象,在國內在 AI Art 領域出現了不少用戶量大的創業項目,但是融資情況并不容樂觀。 2023 年或許會延續 2022 年的創投趨勢:創業項目層出不窮,但是一級市場只買單有技術壁壘和商業前景的個別項目;當然,總體數量會比前些年更多。 ![]() GAmapping,來源 Leonis Capital 風險投資基金 二、AI Art:從高門檻變成無門檻2023 年趨勢
2 月,Disco Diffusion 開始流行,Diffusion 底層技術對 GAN 徹底革新Disco Diffusion 是在2022年 2 月初開始流行的一個 AI 圖像生成程序,可以根據描述場景的關鍵詞渲染出對應的圖像,可以在 Google Drive 直接運行,也可以部署到本地運行。 但在那時,人們尚未意識到,Disco Diffusion 的出現,是 2022 年一整年 AI Art 狂熱潮的開始。 圖為國內最大的平面設計師社區 UISDC 上首次出現關于 Disco Diffusion 的科普文章 上圖為國內最大的平面設計師社區 UISDC 上首次出現關于 Disco Diffusion 的科普文章,設計師是對圖像創作工具最敏感的群體之一,彼時大多數 C 端用戶還并不知道這一“黑科技”的存在,即使知道,也會因為它復雜的調試環境失去參與測試的欲望。 但之后,隨著更多 AI Art 模型和工具的成熟,門檻越來越低,越來越多 C 端用戶開始了解并使用相關的工具。 AI Art在2022年以來的熱度,是因為一種呈現為文字轉圖像(text-to-image)特性的嶄新交互方式,正在向大眾宣告 AI Art 正在進入一個“民主化”的時代。使用文字描述,或者基于畫面意象和故事,或者基于藝術家風格、構圖、色彩、透視方法等專業名詞,就能在數十秒內生成完整的繪畫作品,這讓藝術創作成為了一件像跑步一樣的事:人人都會跑步,只不過是專業的人跑得更快。 還原到底層技術方面,則是一場 Diffusion 對 GAN 的徹底革新。 傳統 AI Art 的的技術原理是生成對抗網絡(GAN)或 VAE 等,目前,GAN 作為上一代 AI Art 工具與平臺最主流的圖像生成模型,在模型訓練方面已經有了很大的突破,但在實際應用的過程中仍然擁有嚴重的結構性問題。 隨著熱度升溫,可能會取而代之的是 Diffusion。Denoising Diffusion Models(去躁擴散模型)作為一種基于分數的生成模型,是一種非常強大的新型生成模型。其工作原理就是通過反復地向訓練數據添加高斯噪聲來破壞訓練數據,然后通過反轉添加噪聲的過程來學習如何取回數據。Diffusion 還提供大量樣本多樣性和學習數據分布的準確模式覆蓋,這意味著 Diffusion 適用于具有大量不同和復雜數據的學習模型,從而解決了 GAN 的問題。Diffusion 緩慢改變輸入數據將數據映射到噪聲的正向變換,通過學習的、參數化的反向過程來完成數據生成。該過程從隨機噪聲開始,一次一步地進行清理。 ![]() 圖源網絡 Diffusion 對圖像生成效果的提升十分顯著,數字生成的痕跡也得到了有效削弱,用戶自己可選執行步數,步數越多圖像越精細的特點也激起了更多的“硬核”需求。 ![]() Diffusion 對圖像生成步驟 這也就是為什么 AI Art 工具其實從很早之前就有了,但此前的圖像效果經常會有“太假”或者不夠完整等種種問題,甚至不如直接用 Photoshop 做一些風格化處理,因此這些作品也就失去了如今 Diffusion 時代作為藝術品的收藏與分享價值。 通過指數級爆發的帖子和作品展示,以 Disco Diffusion、Stable Diffusion、DALL-E2、MidJourney 這些算法和工具為代表的生成器,已經成為了 AI 生成向 C 端落地、以及更廣闊的元宇宙世界的先發力量。 4 月,DALLE2 被推出DALLE2 可以從自然語言的描述中創建逼真的圖像和藝術,上線于 2022 年 4 月 6 日,由 OpenAI 開發。 OpenAI 在四月份推出了 DALL-E 2,DALLE2 可以從自然語言的描述中創建逼真的圖像和藝術,超過 150 萬用戶測試了這個模型,2022年 9 月,公司將它推向了市場。 微軟為 OpenAI 提供資金,以換取其作品的獨家商業版權,并將該模式整合到 Azure AI-as-a-service 平臺中。 8 月,Stability Diffusion 上線作為解決了 DiscoDifusion 的技術痛點的追隨者,Stability AI 也加大了賭注,于 8 月 22 日上線。并推出了開源的擴散模型(Stable Diffusion)。 StabilityAI 是一家創立于 2019 年的人工智能初創公司,總部位于倫敦,致力于構建以 AI 為技術載體的解決方案。 Stable Diffusion 是時下最先鋒、也是最流行的 AI 繪畫機器學習模型,由 StabilityAI 開發,Web 演示版本搭載于 AI 開源社區 Huggingface。Stable Diffusion 的預訓練模型是一個文本至圖像的 AI 模型。根據文本提示,Stable Diffusion 能夠生成逼真的 512x512 像素的圖像以描述提示中的場景。 在模型權重公開發布之前,它的代碼已經發布,模型權重也有限發布給了研究社區。在最新的版本中,任何用戶都可以在消費者級別的硬件中下載并運行 Stable Diffusion。除了文本至圖像的生成,該模型還支持圖像至圖像的風格轉換以及圖像質量提升。在發布該版本的同時,Stable AI 還發布了 beta 版本的 API 以及模型的 Web UI,名為 DreamStudio。 Stable Diffusion 基于名為潛在擴散模型(latent diffusion models,LDMs)的圖像生成技術。與其他的流行的圖像合成方法不同,如生成對抗網絡(generative adversarial networks,GANs)和 DALL-E 使用的自動回歸技術,LDMs 通過在一個潛在表示空間中迭代“去噪”數據來生成圖像,然后將表示結果解碼為完整的圖像。 LDM 是由 Ludwig Maximilian University of Munich 的機器視覺與學習(Machine Vision and Learning)研究組開發的,并在最近的 IEEE / CVF 計算機視覺和模式識別會議(Computer Vision and Pattern Recognition Conference)上發表的一篇論文中進行了闡述。在2022年早些時候,InfoQ 曾經報道過 Google 的 Imagen 模型,它是另一個基于擴散的圖像生成 AI。 Stable Diffusion 模型支持多種操作。與 DALL-E 類似,它能夠根據所需圖像的文本描述,生成符合匹配該描述的高質量圖像。它還可以根據一個簡單的草圖再加上所需圖像的文本描述,生成一個看起來更逼真的圖像。 Meta AI 也發布了名為 Make-A-Scene 的模型,具有類似的圖像至圖像的功能。 10 月 18 日,Stability AI 融資成為獨角獸,更掀起熱潮10 月 18 日,在上線不足兩月的時間里,StabilityAI 獲得由在 Coatue 和 Lightspeed Venture Partners 領投的 1.01 億美元融資,投后估值超過 10 億美元。 上線兩個月就成為獨角獸,足以見得市場對于 StabilityAI 以及 AI 作畫的認可。這也引發了一級市場對于 AI 作畫的強關注。 同樣在 10 月,微軟開始將由 DALLE2 提供支持的生成人工智能技術,集成到其 Bing 搜索引擎、Edge 瀏覽器和新的 2022 年的商業化進展:欲速則不達 由于 AI Art 在受到越來越多關注的同時,開發門檻越來越低,全球范圍內 AI Art 的創業公司和產品也在 10 月、11 月密集出現。 在 11 月初打開 Product Hunt(一個發現新產品的平臺,開發者可以提交自己的產品,網站會依據大眾的投票數量產生每日榜單),會發現每天都有新的 AI 作畫產品上線,并且這些 AI 作畫產品,都在每天榜單的前幾名。 ![]() 2022 年 11 月 3 號,Product Hunt 榜單第一名就是 AI 作畫產品 ![]() 2022 年 11 月 2 號,Product Hunt 第二名是需要付費的 AI 作畫產品 其中,Avatar AI 推出 10 天以來,銷售額已經突破 10 萬美元(銷量為 2943,平均售價 33 美元)。 ![]() Avatar AI 銷售額 不僅美國如此,在中國也是這樣,盜夢師、無界、皮卡智能、TIAMAT 等也在 10~11 月里受到了廣泛關注,盜夢師小程序甚至達到了日增 5 萬用戶的規模。 層出不窮的 AI 作畫產品背后,是全球從業者和 C 端群眾對于新技術的好奇和熱捧。從 Google Trends 和百度指數上,在 10 月 AI 作畫搜索指數的暴漲,就可見一斑。 ![]() Google Trends 美國區“AI Art”熱度 AI Art,火燒得太快、來得太突然,法規完善、生態體系、用戶認知等等一個賽道長期發展所要具備的要素,在 AI 作畫賽道都稍顯空白,這或許會帶來商業化短期的混亂。 一類玩家,以 Avatar AI 這類產品為例,30 美元打包一沓頭像,固然能賺到快錢,但是如何在不傷害獵奇心理消費者的情況下保持長期商業價值是 Avatar AI 不得不考慮的問題。 另一類玩家,不以收費為前提,僅是提供工具免費給用戶使用,那么在早期獲得病毒式增長后,又該如何獲得收入維持后續發展? 還有一類玩家,或許并沒有明確的商業化目標,其出發點或許只是熱愛,但部分 AI Art 產品已經傷害了藝術家的版權,正在全球范圍內引起相關討論。 而目前的混亂,或許是由于這個原本技術突破困難、應該有較高門檻的行業,因為開源,而變得低門檻,投機者幾乎能以零成本去“追逐風口”。作為長期具有 ToC 價值的領域,開源一定程度上“放縱”了 AI Art 在商品層面的混亂。 未來,AI Art 想要獲得更長久的商業發展,需要在 C 端用戶有足夠的認知的同時,玩家探索 toB 的商業價值。 三、AI-Generated Text:基于真實需求,最有想象力的商業應用2023 年趨勢
LaMDA:當 AI 有了意識,搜索引擎也可以“說人話”2022年 6 月,Google 的一名工程師聲稱 LaMDA 可能有自己的感覺,可能“還隱藏著一個感知的心靈”。這讓 LaMDA 一度陷入爭議。 LaMDA 在 2021 年 I/O 大會上首次亮相,是 Google“迄今為止最先進的對話式人工智能”,即與2022年 12 月紅遍全球的 ChatGPT 有著相同的語言模型技術和原生應用場景。2022 年 5 月 11 日,Google 在 2022 年 I/O 大會上公布了 LaMDA2。作為 Google 一直在研究的最先進的大數據模型之一,與 GPT-3 不同的是,LaMDA 沒有被配置為執行任何特定任務,LaMDA 是“對話訓練”,本質上是一個以聊天機器人為導向的 LLMs。 在引起了不少社會上的討論后,Google 回應到:LaMDA 和公司近幾年的大型 AI 項目一樣,都經過了多次嚴格的 AI 道德方面的審核,對其內容、質量、系統安全性等進行了多方面的考量。 2022年早些時候,Google 也專門發表了一篇論文,公開了 LaMDA 開發過程當中的合規細節。其中提到,“在 AI 群體內,對于具備感知的 AI/通用 AI 的長期可能性,確實有一些研究。然而在今天把對話模型來擬人化,這樣做是沒有意義的,因為這些模型是沒有知覺的。不過,這些系統能夠基于數以百萬計的句子來模仿交流的方式,并且在任何有趣的話題上都能夠扯出有意思的內容。” 在 ChatGPT 趕在 2023 年到來之前意料之外地迅速爆發之后,LaMDA 只能以其競爭對手的形式在市場上被動出現。正如在另一個 AI 賽道內,Google 強大的 AI Art 模型 DreamBooth,也是幾乎在 Stability AI 獲得融資成為獨角獸的前夕,才以一個定制化編碼功能更強大的標準曝光在公眾視野之下。同樣,從技術上來說,LaMDA 被認為擁有“對抗 ChatGPT 所需的一切”。 在一些投資人與用戶高呼 ChatGPT 能夠“殺死傳統搜索引擎”之后,另一群人寄托在 LaMDA 身上的希望,情節變得更加跌宕起伏。 Google 和 OpenAI 都是全球久負盛名的 AI 夢工廠,區別是前者成為科技巨頭已久,且在壟斷用戶搜索查詢流量的同時,也主導了多個 AI 生成賽道的誕生和迭代。而后者則在2022年連續推出了 DALLE2 和 ChatGPT 兩個現象級生成式 AI 工具,未來幾年內有望做出最龐大的 AI 生成平臺。 因此,LaMDA 和 ChatGPT 的競爭更有可能是生態級別的。拋開前文所討論的人工智能恐怖谷、科技倫理學等問題,從長期來看,作為“巨頭之子”,LaMDA 的機會很可能集中在以下幾點: 首先,“打敗 Google 的,只可能是 Google”。就像社交帝國騰訊用微信“打敗”了 QQ 一樣,Google 幾十年來在搜索引擎領域的絕對話語權,使其在對話式 AI 在搜索領域的應用上,也具有不可撼動的優勢。 目前,Google 在搜索引擎中使用 Featured Snippets(精選片段)為用戶的問題引用答案,這是其商業化手段之一,也是廣受用戶詬病的一點。 相比來說,ChatGPT 之所以被列入“殺死 Google 搜索”的候補名單,是因為其擅長為更復雜、更完整的問題生成答案,同時不會像 Google 一樣試圖將用戶引導到其他頁面,提供了更清爽的用戶體驗。但極致的用戶體驗有些時候也會成為商業化的阻礙,由于對話式 AI 中的“競價廣告”可能要比 Google 的 SEO 要隱蔽得多,且不直接顯示數據引用來源的 AI 表面上無需對搜索結果負責,因此潛在威脅也是可想而知的。 前兩天,全球最大產品發現社區 ProductHunt 上已經出現了導購項目,專門收集 ChatGPT 回答的“某一分類下最好的品牌”。如果對話式 AI 未來更加泛濫地應用于品牌營銷,或者商家發明出一套規則能讓自己的品牌名更多地被 AI 模型抓取,它的內容可信度會不會成為曇花一現呢?如果堅持“真實”和“專業”,又怎樣實現在搜索領域的變現? 在這個問題上,LaMDA 和 ChatGPT 面對的商業化難題是一樣的,但毫無疑問作為搜索巨頭的 Google,會有更完善的解決方案。 其二,MUM(Multitask Unified Model,多任務統一模型)、PaLM(路徑語言模型)等其他 Google 自研 AI 模型的支持和集成。ChatGPT 之所以現在看起來更像是一個工具或者“寫郵件神器”,是因為技術和模型已經是時下最先進的了,服務和體驗卻仍然是單點維度的,距離生態利器還有很長的路要走。 而在這一點上,Google 已經有所考慮。比如,除了 LaMDA 之外,Google 還強調了 MUM 的重要性。多模式模型允許人們“跨不同類型的信息進行提問”,也就是說,將圖片、音頻、視頻等媒介形式結合文字來提問。 ![]() Google 提供的一個搜索示例:用戶給自己的登山靴拍了張照片,問“我可以穿這個登富士山嗎?”MUM 則能夠通過理解圖像等內容和查詢背后的意圖進行判斷,并推薦裝備列表和博客文章。 目前,Google 已經將 MUM 技術添加到了 Google Lens,后者為 Google 推出的一款支持圖片對象檢索的現實搜索應用。 總體來說,在 LaMDA 始終位于技術前列的情況下,至少在搜索和對話式領域,Google 將比一切競爭對手都更接近產品化和商業化。 其實,AI 自然對話的能力基于對人類說話口吻的模仿,本就是為了讓信息和計算從根本上更易于被人們訪問和使用,這種軟性提效與工業硬件升級等硬性提效的最大區別,就是它與人類的行為和語言體系是一種寄生關系。換句話說,不具備商業能力的 AI 模型代表著長期投入能力差,缺少時效性價值,從而損害“搜索”的核心價值。 早在2022年 5 月份,Google CEO Sundar Pichai 就重申了對話式自然語言處理的最大價值是“數字民主化”。至少在研發轉產品的目標上,LaMDA 比2022年大多數生成式 AI 工具都要明確,那就是讓 Google 搜索未來能夠像人類一樣回答問題。 “倉促行事對于搜索領域來說似乎并不明智,因為世界需要始終如一的正確。” OpenAI 的 chatGPT 引起全球狂熱11 月 30 日,人工智能實驗室 OpenAI 發布了自研的聊天機器人——ChatGPT,它比其他任何可供公眾互動的聊天機器人都要先進,在聊天外,可以當成搜索引擎、論文生成器、代碼生成器、翻譯等多個實用角色,成為人類的生活工作助手。 其價值被廣泛認可,上線 5 天后,注冊人數突破百萬,而到達這個數字,推特用了兩年。 因為 ChatGPT 的火爆,OpenAI 在大語言訓練模型領域的積累也逐漸被看到——ChatGPT采用最新的GPT3.5模型,模型中首次采用 RLHF(從人類反饋中強化學習)方式。 OpenAI 最初于 2017 年提出的 GPT1,其采取的是生成式預訓練 Transform 模型(一種采用自注意力機制的深度學習模型)。GPT1 的方法包含預訓練和微調兩個階段,預訓練遵循的是語言模型的目標,微調過程遵循的是文本生成任務的目的。2020 年的 GPT3,訓練參數是 GPT-2 的 10 倍以上,給 GPT 訓練讀過文字和句子后可接續問題的能力,同時包含了更為廣泛的主題。 ![]() 圖源:Medium GPT 系列模型的數據集訓練規模 現在的 ChatGPT 則是由效果比 GPT3 更強大的 GPT-3.5 系列模型提供支持,這些模型使用微軟 Azure AI 超級計算基礎設施上的文本和代碼數據進行訓練。 具體來說,ChatGPT 在一個開源數據集上進行訓練,訓練參數也是前代 GPT3 的 10 倍以上,還多引入了兩項功能:人工標注數據和強化學習,相當于拿回了被 GPT3 去掉的微調步驟,實現了在與人類互動時從反饋中強化學習。 ![]() ChatGPT 自己回答與前代 GPT3 的能力區別 盡管目前 ChatGPT 還存在很多語言模型中常見的局限性和不準確問題,但毋庸置疑的是,其在語言識別、判斷和交互層面存在巨大優勢。 Notion AI:一個更加 AGI 的可能性2022年 11 月,全球獨角獸 Notion 發布了 Notion AI 的 Alpha 版本,這也是知識管理工具與生成式 AI 工具的進一步結合。 從功能上來說,Notion AI 與 ChatGPT、Jasper 等工具類似,都是根植于 LLM 在2022年的技術爆發,服務于 text-to-text 應用下的重復性或創造性寫作。而從應用環境來看,Notion AI 的創新性在于,它完全融合于 Notion 文檔內部,這也就意味著人工智能協作又少了一步“冷啟動”的時間。 ![]() 圖片來自 Notion AI 官網 圖片來自 Notion AI 官網,可以看出,Notion 用戶在文檔中輸入“/”(也是 Notion 區塊式筆記的基礎基礎邏輯)即可調用不同功能的 Notion AI,包括 Continue writing(續寫)、Help me write(text-to-text 生成內容)、Brainstorm ideas(列出 bullet points)等。在功能定位上,Notion 將 AI 列為了寫作助手的角色,比起 ChatGPT 更加接近 Grammarly。 其實,無論是 ChatGPT 還是 Notion AI,目前為止都還沒有辦法直接生成一篇原創且可發表的內容,但它們能夠很好地幫助用戶“跳過初稿階段”,直接進入對文字的改進和完善階段。與此同時,所有 LLM 的應用工具都在迅速改進,使得語義理解能夠從句子到段落,再到邏輯關系更加復雜的語境,從而更好地理解和編寫各種文本。 Notion AI 的機會有三點: 第一,Notion 的平臺特性能夠與 LLM 的技術特性更好地融合。眾所周知,目前的生成式 AI 最需要的就是更多更詳細的語境。在我們使用 ChatGPT 的時候,得到的文字內容經常會以“由于沒有更詳細的數據支持,我只能嘗試理解需求”之類的聲明作為開頭。 而作為一個綜合了筆記、項目管理等用戶個人知識內容的 Workspace(工作區),Notion 為每位用戶存儲了大量邏輯結構和關聯性更強的文本內容,比 ChatGPT 等聊天式 AI 更容易獲取大量的上下文語境素材,從而實現更精準的需求理解和對于用戶語言風格的模仿等。 第二,Notion AI 符合生成式 AI 目前最重要的兩個競爭條件。盡管 Notion 計劃“緩慢而謹慎”地推出他們的 AI 工具,但由于 AI 并不是一項一勞永逸的技術,其核心競爭壁壘來自于數據質變、用戶需求理解和模型的完善性,因此用戶量和在時間上占先,對于生成式 AI 來說是非常重要的兩點。 作為數字協作領域的獨角獸,用戶量和 C 端口碑是 Notion 一直以來引以為傲的亮點。從入局時間來看,ChatGPT 在 11 月底引發了 AI 寫作的全球熱潮,Notion AI 與之基本同期,沒有錯過時間紅利。 第三,存在于知識庫內部的 AI 工具有更多呈現形式。從應用場景來看,以聊天機器人形式出現的 ChatGPT 似乎更像是一個用來展現技術能力的 demo,它還在尋找廣泛的領域場景和合作商。與之相比,Notion 在協作領域的巨大影響力,則已經為 Notion AI 注腳好了未來的可能性。在一個巨大的知識管理工作區內部,AI 除了輔助寫作的用途,還能集成搜索、連接日歷與任務管理、回答用戶的問題并粘貼知識庫中的信息等。 ![]() 用 Notion AI 生成表格 綜上,剛剛被“交到用戶手中”就立刻引發了熱議的 Notion AI,也讓我們重新想起了 AGI 的概念。其實,Notion 本身能夠從一眾產品精度做得越來越“卷”的筆記應用中取得不可忽視的地位,并建立最龐大的第三方模版市場和社區,就是基于其一體化文本協作的理念和高度集成性。 四、Video AI:創業公司層出不窮2023 年趨勢
雖然文本到圖像的生成式 AI 是2022年 AI 領域的最大新聞之一,但“文本到視頻”無疑將會接班成為 2023 年的新技術焦點。目前,在 AI 視頻領域,捕捉遠程依賴關系等決定性的技術仍具有挑戰性,但 AI 視頻在2022年年底已經實現了對于部分短視頻的覆蓋。2023年,也許“我們將無法區分視頻是由人還是 AI 生成的?!?/p> 此外,2022年以來,生成式 AI 在影音技術方面的應用,也越來越詳細地描述著元宇宙將如何出現。雖然在 C 端沒有出現像 Stable Diffusion 和 ChatGPT 一樣現象級的工具,且各 AI Art 廠家圍繞 text-to-video 所做的布局,常常被看作是 text-to-image 的形態拓展,但在各類短視頻、長視頻占據用戶大量時間的互聯網環境下,AI 視頻工具的商業化路徑也要比前者清晰得多,比如應用在營銷等領域。 雖然制作最好的視頻總是需要創造力和人性化的觸覺,但人工智能軟件可以用來減少處理所占用的大量時間。 也因此,不少 Video AI 賽道的公司在2022年獲得一級市場的關注。 2 月,以色列 AI 技術研發商 Hour One 宣布完成 2000 萬美元 A 輪融資,該公司計劃利用這筆資金擴大其自助服務平臺 Reals,允許企業在幾分鐘內從文本中自動創建以人為主導的視頻。 10 月,Descript 宣布完成了由 OpenAI 領投的新一輪融資,估值達到了 5.5 億美金。Descript 是一家音頻轉錄編輯器,會將音頻轉錄下來的文字放到 Word 文檔中,然后編輯人員或音頻制作人可以像修文檔一樣剪輯音頻。 12 月,圖片和視頻 AI 編輯軟件提供商 runway 完成 5000 萬美元 C 輪融資,投后估值達到 5 億美元。 同樣在 12 月,家視頻搜索和分析云基礎設施提供商 Twelve Labs 宣布獲 1200 萬美元種子輪追加融資,該公司推出一套云原生 API,可與該公司的人工智能視頻搜索工具集成,使開發人員能夠對海量視頻進行搜索。 不過,拋去對于技術層在2023年能夠實現爆發的樂觀預期,如果基于文本的視頻生成模型仍然需要 1-2 年才能達到以假亂真的效果,那么此類模型也許需要 2-3 年才能在商業應用和企服領域真正發揮作用。在此之前,這些模型可能適用于對保真度和可控性要求較低的場景,如 C 端用戶在娛樂創作平臺上的獵奇式創作。 五、AI Coding:開始小規模應用2023 年趨勢
當今世界,毫無疑問不僅僅由物理世界組成,由代碼組成的互聯網世界已經成為人類賴以生存的世界之一,這從中美等各個國家互聯網公司位列前沿的市值可見一斑。 因此,AI 編寫代碼也被傾注了最大的期望。 AI 對工業的“妄圖染指”,開啟了 AI 在良莠不齊的生產環境中漫長的應用過程,而這也是 AI 回報周期過長的原因之一。由于人類只能從已經存在的歷史中去提煉參照系,在被稱為“信息革命”、“數字革命”的新世紀洪流中,代碼一直以來所對應的就是像蒸汽、電力一樣的工業生產力新單位。 不過,與以往不同,開發在科技世界的構建中比以往的工人取得了更高的地位和經濟話語權。隨著數字經濟的發展,編程人才逐漸被細化到各行各業、各個技術體系中去,從價值層級來分,他們的工作也可以被拆分為創造和解決需求兩個部分。 近年來,隨著科技門檻一再降級,每當有 CRM、無代碼等看似“反程序員價值”的產品出現,人們就會熱議“程序員的工作很快就要被替代了”。2022年跟隨 LLM 掀起水花的 AI Coding 也是同理。 在過去,這種“不再被需要”也許只是一種烏托邦式的幻想或自嘲,大多數人都明白,更多的數字生產力被解放,就會有更多的創造導向型領域出現人才缺口。可直到2022年,飄蕩在全球互聯網上空的裁員危機,似乎是在倒逼著這一口號重新回到了從業者的焦慮范圍內。 AI Coding 則正是在這種情況下開始小規模地應用于業界。 2022年 2 月,DeepMind 推出了 AlphaCode,這是一款用 12 種編程語言對 8600 萬個程序進行預訓練的 Transformer,并針對編碼競賽的內容進行了微調。 通過推理,它產生了一百萬種可能的解決方案,并過濾掉了不佳的解決方案。通過這種方式,它在 10 次編程競賽中擊敗了一半以上的參賽者。 6 月,GitHub 開放了 Copilot 的訪問權限,這是一個能夠實時提供代碼建議的自動完成系統。雖然學生和經過驗證的開源開發者可以免費訪問,但用戶需要支付訂閱費。 11 月,“萬能助手”chatGPT 出現,不少用戶開始嘗試用 chatGPT 編寫代碼。像簡單的 shell 腳本,makefile 等,ChatGPT 確實能處理,但更復雜的編程需求,chatGPT 會給出錯誤答案。開發者可以把 AI 生成的代碼拿來進行修改,以節省時間。 但同時,AI coding 的隱患也在隨著技術門檻降低而攀升。 The Register 的一份報告顯示,斯坦福大學計算機科學家發現,與完全靠自己做事的程序員相比,使用 Github Copilot 等人工智能編碼工具的程序員創建的代碼安全性較低。 除了已經暴露出的版權問題、安全隱患之外,AI 編程還有很多已知或未知的痛點,比如提高了人才篩選難度, 比起 AI Art、AI 寫作等領域,AI 編程主要有如下三個特點: 1. 其應用環境往往不是 C 端用戶的獵奇心理和“科技民主化”的目的,而是用于實際的工作項目中,準確性要求更高,對版權等商業信息更敏感; 2. 編寫結果可能會涉及到復雜的函數,無法像 AI Art 一樣讓任何人都能夠以肉眼判斷,有較大的應用和試錯成本; 3. 編程本身可以說是一個比較龐大復雜的母領域,而是多個語言領域的泛概念,因此所針對的領域、需求和實現難度也不同。 這些特點決定了 AI Coding 在短期內會更多地用于科技巨頭的內部構建,并且由于代碼是這些公司的主要商業資產,其內部孵化或投資的項目,可能并不會被競爭對手所接受。雖然目前以 DeepMind 為代表的頭部服務商呼聲很高,但 AI Coding 本質來說也并不是一件具有技術壁壘的事,大公司各筑城池的局面不難想象。 此外,由于 AI Coding 和無碼化趨勢的現階段目的,同樣都是為企業的 IT 部門解放生產力,其對于大多數業務類型的公司來說,降本增效的空間也難免會被進行對比。AI Coding 雖然是自動生成代碼,但其商業邏輯也是主要服務于程序員,目前還很難做到離開“人腦”工作。就像 AI Art 在熱潮退去之后,也會逐漸成為藝術家等專業人員的靈感工具一樣。 但其降本矛盾在于,如果是 freelancer 或獨立開發者,AI Coding 工具毫無疑問能夠幫助他們提高效率,但大多數程序員作為企業員工,可能自身并不會愿意被“人工智能”間接降薪。但從長期來看,隨著數字經濟下的編程基礎教育進一步完善,各類開發工程師的分工也趨于細化,屆時 AI Coding 將大有可為。只不過,這一點希冀很難惠及到即將到來的 2023 年。 相比來說,無碼化工具的出現則是為了解構程序員的價值和工作屬性。畢竟在程序員普遍“高薪”的情況下,在同一個業務需求下,把程序員換成業務運營人員,至少在人力方面就已經做到了降本。 不過,好消息是,2022 年的最后一個季度,AlphaCode 等 AI 編碼工具似乎遭受了前所未有的業界爭議。在科技和創投界,法律、商業、社會道德對于新生事物的爭議通常代表著希望,雖然 AI 編碼在2023年也不可能直接代替那些“螺絲釘型”碼農,但大面積的智能優化代碼服務,可能會成為另一個企業服務的熱點。 六、LLM:作為底層技術,沒有巨頭缺席沒有一家巨頭缺席 LLM,更加說明了 LLM 進入較為成熟的階段。 11 月 15 日,Meta 公司發布大型語言模型 Galactica,并宣稱它“可以總結學術論文,解決數學問題,生成維基百科文章,編寫科學代碼,標記分子和蛋白質,以及更多功能?!?/p> 但上線僅 3 天,該模型就在巨大爭議中撤回。它雖然能生成一些貌似通順的學術文本,但文本中的信息是完全錯誤的——貌似合理的化學方程,描述的是實際上并不會發生的化學反應;格式合規的引文參考的是子虛烏有的文獻;甚而種族主義、性別歧視的觀點,也能通過模型生成的文本而被包裝成 ' 科學研究 '。 Google 于去年推出“LaMDA”(對話應用程序語言模型)。LaMDA 是 Google 一直在研究的最先進的 LLMs 之一,與 GPT-3 不同的是,它沒有被配置為執行任何特定任務,LaMDA 是“對話訓練”。 它本質上是一個以聊天機器人為導向的 LLMs,2022年 6 月,Google 的一名工程師聲稱 LaMDA 可能有自己的感覺,可能“還隱藏著一個感知的心靈”。這讓 LaMDA 一度陷入爭議。 由于 LaMDA 仍處于封閉測試階段,只有少數用戶可以使用,因此關于它的性能幾乎沒有披露。但是 LaMDA 只有 1370 億個參數,與前面討論的 GPT-3 的 1750 億個參數相差甚遠。雖然用于訓練 LLMs 的數據量并不是其性能和準確性的唯一驅動因素,特別是考慮到 GPT-3 和 LaMDA 是為不同的功能而創建的,但兩者中參數數量的差異確實引起了人們對 LaMDA 是否是 ChatGPT 或廣義上的 GPT-3 的有力競爭者的更大審查。 LaMDA 證明了 Google 在 LLM 競賽中并沒有完全出局。 2021 年 10 月,微軟和英偉達正式推出由 DeepSpeed 和 Megatron 驅動的 Megatron-Turing 自然語言生成模型(MT-NLG),聲稱有 5300 億參數,在當時宣傳這是訓練的最大最強的解碼語言模型。不過在2022年并沒有取得更新的進展。 微軟在生成式 AI 方面始終參與度不低。2022年大火的 chatGPT,其背后模型 GPT3.5 就是在微軟 Azure AI 超算基礎設施(由英偉達 V100GPU 組成的高帶寬集群)上進行訓練,同時微軟在考慮對 OpenAI 進行新一輪投資。 ![]() 圖源網絡 國內,互聯網大廠也走在大模型訓練的前沿,各大廠在超大規模 AI 模型訓練的爆發主要集中在 2021 年,國內超大模型研發雖然比國外公司晚,但是發展卻異常的迅速。在2022年,也有一些進展。 百度文心大模型已經形成“模型層+工具與平臺層+產品與社區層”的整體布局,于2022年全新發布 11 個大模型,包括 5 個基礎大模型、1 個任務大模型、5 個行業大模型;全面升級文心大模型開發套件、文心 API;新發布和升級基于文心大模型的 2 大產品,AI 作畫產品“文心一格”和產業級搜索系統“文心百中”。 去年,阿里達摩院先后發布多個版本的多模態及語言大模型,在超大模型、低碳訓練技術、平臺化服務、落地應用等方面實現突破。其中使用 512 卡 V100 GPU 實現全球最大規模 10 萬億參數多模態大模型 M6,同等參數規模能耗僅為此前業界標桿的 1%,極大降低大模型訓練門檻。2022年 9 月,阿里巴巴 fault 最新「通義」大模型系列,其打造了國內首個 AI 統一底座,并構建了通用與專業模型協同的層次化人工智能體系。 近年來,大型語言模型的參數數量保持著指數增長勢頭。據預測,OpenAI 開發中的最新大型語言模型 GPT-4 將包含約 100 萬億的參數,與人腦的突觸在同一數量級。由此,出現了一個新的人工智能口號:' 規模就是一切 '。 ![]() 大數據模型花銷 七、結語:商業化,生成式 AI 在 2023 年最大的課題在生成式 AI 技術取得突破性進展、應用井噴式出現、用戶與其距離越來越近的 2022,我們不得不關心,GA 到底是未來 AI 進入人類生活的開始,還是如此前一樣曇花一現。 目前,不少人對生成式 AI 的質疑主要在以下幾點: 1、現在 AI 的生成內容大多數還達不到直接商用的標準,仍然需要大量的模型微調,以及人的行業經驗的輔助、補充、加工。 2、AI 生成控制方式相對普通人來說,還有一定門檻。 3、AI 的生成結果在版權方面存在模糊性。 4、行業過熱,會導致不成熟的 AI 激增,良莠不齊的應用和魚龍混雜的市場很可能會讓 C 端用戶和企業客戶失去判斷信心,同時帶來數據安全隱患。 但以上問題只能限制生成式 AI 無法在短期內成為普惠的技術,并不代表生成式 AI 沒有價值。其評判標準應該是,AI 技術能否變現,能否帶來商業價值,使其成為一個成熟的產業。 在技術方面,2023 年,更好的基礎模型值得期待,比如能夠以更高效或更緊湊的方式表示復雜數據的稀疏模型。它可以更快計算且需要更少的內存來儲存,從而帶來成本上的進一步普惠化。除此之外,更精準的數據收集能力也意味著在審核、消除偏見信息等方面投入更大的努力。 在2022年,技術開源盡管帶來了一些不必要的混亂,但毋庸置疑,這也讓更多原本沒有能力的開發者加入了戰場,加快了生成式 AI 的商業化步伐。 在目前最大的、每天更新的 AI 應用目錄 FUTUREPEDIA 網站里可以發現,目前最受關注的 AI 應用多是文本生成和圖片生成相關的應用。這和2022年的風口趨勢一致。 ![]() 36氪截圖于2022年12月底 但同時我們也注意到,在文本和圖像之外,最受關注的 AI 應用,是市場營銷工具。如果說文本、圖像應用是普適的、不對 toBtoC 進行區分的應用方向,那么市場營銷是商業價值更加明確的 toB 方向。 ![]() FUTUREPEDIA 營銷方面的應用 或許我們可以判斷,生成式 AI 接下來一年的商業化進展,將有三條路: 一,成為用戶量足夠大的 C 端工具,如 Google,依靠流量賺錢; 二,成為足夠好用的細分工具,如 Adobe,靠特定人群的固定需求賺錢; 三,成為特定賽道的企業服務軟件,比如服務營銷、開發等需求量極大的賽道。 無論是哪條路,在2022年都已有雛形和早期沉淀。 時間不對 是不是商業化應用沒有突破更準確些? 這個點文章沒有證明 |
|