2022年取得突破的生成式人工智能是自十多年前移動和云計算興起以來最引人注目的技術(shù)。平臺層正在鈣化,我們正目睹著令人興奮的應(yīng)用層的萌芽——這些產(chǎn)品有可能成為數(shù)十億人日常生活的一部分。 搭好舞臺在過去十年里,有兩股重要力量推動了技術(shù)的發(fā)展:分別是移動和云計算。移動促進(jìn)了大型消費互聯(lián)網(wǎng)公司的崛起,這些公司基本上都成立于2009年至2013年間。數(shù)字廣告在2010年代迅速轉(zhuǎn)向移動設(shè)備,桌面時代的公司不得不爭先恐后地重塑業(yè)務(wù)。 云計算則支撐了軟件即服務(wù)(SaaS)的爆發(fā)式增長,并讓數(shù)據(jù)變成企業(yè)最寶貴的資源。這一領(lǐng)域的新興公司基本上也都成立于2009年至2013年之間。2015年到2022年間,存儲在云端的企業(yè)數(shù)據(jù)占比翻了一番。移動和云計算讓2010年代成為技術(shù)領(lǐng)域非常非常好的十年。 ![]() 2020年代最引人注目且最有可能推動技術(shù)發(fā)展的力量是什么?也許是人工智能。人工智能在過去幾年中得到了顯著改善。我們看到了從Stable Diffusion到Midjourney、ChatGPT到Lensa的一切事物的涌現(xiàn)。人工智能正在成為主流。 我們正處在人工智能的轉(zhuǎn)折點,這個轉(zhuǎn)折點正在支撐起創(chuàng)新的寒武紀(jì)大爆發(fā)2009年至2013年誕生了數(shù)十家由移動和云計算技術(shù)提供支持的變革型初創(chuàng)公司。未來幾年這樣的公司將再度涌現(xiàn),人工智能將成為催化劑。 AI是泡沫,還是下一個大事件?答案可能是兩者兼而有之。現(xiàn)在有很多令人興奮的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者兩者兼而有之。但是當(dāng)你將畫面拉遠(yuǎn)時就能發(fā)現(xiàn),毫無疑問我們正處于一個激動人心的技術(shù)新時代的風(fēng)口浪尖。 圖像模型2022 年文本生成圖像AI爆發(fā)了。首先出現(xiàn)的是來自OpenAI的DALL-E。當(dāng)然,不是誰都可以直接用DALL-E,但這方面的創(chuàng)作已經(jīng)開始在互聯(lián)網(wǎng)上火起來了。 對于這個世界大部分的地區(qū)來說,DALL-E是AI的第一個真正的“哇哦”時刻OpenAI的Sam Altman把這一點歸功于圖像所傳遞的情感力量:其實相對于 DALL-E,技術(shù)界對 2020 年推出的GPT-3要更加認(rèn)可。從GPT-3這里,第一次真正感受到了系統(tǒng)的智能。它可以做人做的事情。它的出現(xiàn)讓以前根本不相信AGI(通用人工智能)的人也要認(rèn)真對待這一話題了。發(fā)生在GPT-3身上的有些事情是我們大家都沒預(yù)料到的。 但是圖像卻有著獨特的情感力量。相對于GPT-3,世界其他地方對DALL-E的欣賞要高很多。 人往往更喜歡更豐富的媒體格式:照片一直都比文字更受歡迎;與此同時,視頻在使用上一直在蠶食圖片應(yīng)用的市場,迫使后者也得向視頻轉(zhuǎn)型。在我看來,類似的偏好也會發(fā)生在生成式人工智能身上:圖像 > 文本,很快,視頻也會 > 圖像,以及最終沉浸式 3D 體驗將 > 視頻。 ![]() 在 DALL-E 起勢之后,去年夏天Stable Diffusion和Midjourney的出現(xiàn)徹底改變了局面。Stable Diffusion具有開創(chuàng)性,因為它是開源的,這意味著開發(fā)者基于它做開發(fā)。Stable Diffusion將擴散從像素空間轉(zhuǎn)移到了潛在空間,從而推動質(zhì)量的顯著提高。與此同時,Midjourney 在可訪問性方面具有開創(chuàng)性。任何人都可以注冊一個免費賬號,并獲得25個積分,圖像則是用公共服務(wù)器生成的。用完 25 個積分之后,每月支付10美元或30美元就可以繼續(xù)使用。Midjourney已迅速成為 Discord上最受歡迎的服務(wù)器之一,擁有740萬會員。 2022年是圖像模型的轉(zhuǎn)折點,生成的圖像質(zhì)量得到了迅速提高。舉個例子:眾所周知,AI 很不擅長創(chuàng)作手。除非 AI 具有出色的上下文感知能力,否則很難知道已經(jīng)弄出了多少根手指。其結(jié)果是我們最終會得到很多有四根或六根手指的手。下圖是Midjourney v3(2022 年 7 月)與Midjourney v4(2022 年 11 月)生成結(jié)果的對比,你能看出結(jié)果有了明顯改進(jìn):不再會出現(xiàn)有兩只喙或三條腿的企鵝。 ![]() 數(shù)字創(chuàng)作的軌跡正在沿著動畫的軌跡前進(jìn),但技術(shù)發(fā)展的步伐只會越來越快。比方說,上面Midjourney生成的企鵝圖像之間的差異只是短短幾個月之間的對比結(jié)果。 語言模型去年,在圖像模型出現(xiàn)飛躍的同時,語言模型也突飛猛進(jìn)。去年11月, OpenAI推出了ChatGPT,剛推出五天,這款聊天工具就收獲了100萬用戶。ChatGPT的表現(xiàn)令人難以置信,有“魔法時刻”降臨的感覺。 人工智能現(xiàn)在這種發(fā)展和采用的節(jié)奏可以追溯到 2017 年當(dāng)時國外某公司發(fā)表的一篇開創(chuàng)性論文《Attention Is All You Need》。這篇論文由Cohere.ai創(chuàng)始人Aidan Gomez與人合著,從中催生出一個規(guī)模呈指數(shù)級增長的“transformer”模型時代。 不到三年前的GPT-3推出時的參數(shù)規(guī)模為約2000億,但新的GPT-4將有約 1,000,000,000,000(萬億)個參數(shù)。 在提出新想法、理解上下文以及回憶信息的能力方面,每個新模型都實現(xiàn)了飛躍。但更大的模型的訓(xùn)練成本也高很多。訓(xùn)練有數(shù)千億個參數(shù)的模型可能要花費數(shù)百萬美元。出于這個原因,大規(guī)模模型正在成為初創(chuàng)公司創(chuàng)立的基礎(chǔ)。 ![]() 生成式 AI 的用例手寫文字識別是最早的人工智能形式之一,郵政服務(wù)主要用它來讀取信封上的地址。但是人工智能的這個用例非常特殊。在生成式人工智能方面,我們已經(jīng)看到:圖像和語言模型有了巨大改進(jìn);OpenAI、Hugging Face、Stability.ai等公司提供的寶貴基礎(chǔ)設(shè)施。這兩個因素相結(jié)合拓寬了用例的可能性。 一說到AI和大型語言模型時,人們往往認(rèn)為需要大量專業(yè)知識。為了處理這些東西,我得了解深度學(xué)習(xí),我可能還得懂微積分或至少線性代數(shù),可是我根本就不太喜歡那種東西。我需要知道怎么給硬件編寫CUDA內(nèi)核程序?這可太嚇人了。 他們疏忽了一點,這其實是個謬誤。這個謬誤就好比要想制作顏料,你得是化學(xué)家。所以如果我想成為一名畫家的話,我必須學(xué)習(xí)化學(xué)。但現(xiàn)實情況是,你不需要知道如何制作顏料就能成為一名偉大的畫家。同理,你不需要弄清楚大型模型是怎么做出來的,也可以用它們做出出色的產(chǎn)品。 任何人都可以更輕松地開發(fā)出利用AI去畫畫的工具。變革每個行業(yè)的機會已經(jīng)成熟。如果極度簡化的話,我們可以把用例分為兩類:創(chuàng)意類、生產(chǎn)力類。 說到創(chuàng)意,我們看到生成式人工智能降低了創(chuàng)作的門檻。利用Midjourney,你可以給電影制作概念圖。Latitude.ai等公司開發(fā)出AI Dungeon等游戲,利用GPT-3進(jìn)行AI驅(qū)動的探索。 ![]() 就像人工智能增強了創(chuàng)意一樣,人工智能也增強了生產(chǎn)力。我們在賦予作者和營銷人員超能力的工具中就能看到這一點,比方說像Jasper.ai、Copy.ai、Lex這樣的工具。通過讓ChatGPT幫我頭腦風(fēng)暴,為自媒體設(shè)計新標(biāo)語,它的推薦令人印象深刻。 我們從Gong身上看到了生產(chǎn)力的提升,它運用了AI來幫助B2B銷售團隊提高效率和效力。我們在Osmosis身上也能看到這一點,它可以幫助廣告代理商生成AI廣告。我們在GitHub Copilot身上也能看到這一點,它可以將自然語言提示轉(zhuǎn)化為數(shù)十種編程語言的編碼推薦,而且從2022 年6月開始,所有開發(fā)者均可用上這款插件。 人工智能(尤其是建立在語言模型基礎(chǔ)之上的人工智能)的早期目標(biāo)是死記硬背的重復(fù)性任務(wù)。但目前有一個領(lǐng)域被重塑的時機已經(jīng)成熟:那就是客戶支持。這些是今天的人工智能已經(jīng)可以取得重大進(jìn)展的領(lǐng)域。更復(fù)雜的任務(wù),比如3D游戲創(chuàng)作,在未來會有進(jìn)一步的發(fā)展。但任何涉及人類創(chuàng)作的行業(yè)都會感受到人工智能的影響。 生成式人工智能很快就會與其他成熟的技術(shù)發(fā)生沖突,比如VR和AR。想象一下生成沉浸式三維虛擬世界的文本提示。這可能會在不久之后成為可能。技術(shù)發(fā)展往往非常迅速:在人的一生之內(nèi),我們就從萊特兄弟首次實現(xiàn)飛行(1903 年)發(fā)展到了將人送上距離地球 384400 公里之遙的月球(1969 年)。而今天出生的人們,他們將目睹人工智能重塑人類生活、工作和社會的方方面面。 |
|