“雖然在 2012 年到 2015 年間,深度學習在圖像識別領域獲得了巨大成功,但要達到通用人工智能,還需要時間。”這是讀研究生時劉小洋的老教授告訴他的。 自然語言理解是走向通用人工智能的關鍵,但當時整個行業沒能邁出這一步。機器學習框架 TensorFlow 曾一度名聲大噪,“當年很多人都學習 Tensorflow,但是我從頭到尾沒有學過,因為我的一些朋友特別是學術圈的朋友認為,它已經是過去式了,不會再有什么前途。” 如今,劉小洋已經是哥倫比亞大學電子工程系研究員。這么多年過去,時間終于給出如何走向通用人工智能的答案:ChatGPT。ChatGPT 的意外突破讓包括劉小洋在內的學者們和企業里的研發人員看到了希望。“我不想落后,”劉小洋隨后便投入了自己的開源模型創建中,而他的這句話也道出了眾人的心聲:是的,沒人想在這場競賽中落后。 真正影響深遠的技術突破并不出現在 ChatGPT 引領的這次浪潮中,而是在五年前。2017 年,谷歌發表了劃時代的論文:Attention Is All You Need,創新性地提出了神經網絡架構 Transformer,Transformer 后來成了許多模型的主導架構,包括我們熟知的 GPT。 OpenAI 基于 Transformer 從 GPT-1 開始做起,但直到 GPT-3,普通大眾才看到了 GPT 的強大能力。OpenAI 的關鍵突破在于 GPT-3 讓人機對話變得更有“溫度”,人們開始將人工智能應用看作有情感、有理解能力的“生命體”。 具體來看,ChatGPT 的學習流程主要分三個步驟:第一步,訓練監督調優模型,主要收集數據、訓練有監督的策略模型;第二步,訓練獎勵模型,人類標注者對監督調優模型的輸出打分,這個分數反映了被選定人類標注者的偏好,這個偏好多數情況下是符合人類共同認知的;第三步,使用近端策略優化模型微調監督調優模型。這其中的關鍵在于用人類反饋來強化學習不斷提升效果,最后讓用戶感覺“就像在跟人對話”。 這種優化后的對話體驗促進了人與計算機交互方式的發展,即從 GUI(Graphical User Interface,圖形用戶界面)變為了 LUI(Language User Interface,語言用戶界面),用戶可以用自然語言表達需要,而不需要記住特定的命令或點擊特定的圖標。 交互方式的改變意味著用戶習慣的改變,進而可能導致與 IT 有關的各行各業都或多或少受到沖擊。對開發技術棧的一個顯著影響就是,應用將以某個龐大的通用模型為基礎設施。就如李彥宏所說,人工智能時代,IT 技術棧發生的根本性改變是從原來的芯片、操作系統和應用三層架構,變成了芯片、框架、模型、應用四層架構。LLM(Large Language Model,大型語言模型)成為了人工智能時代的操作系統,所有應用都將基于 LLM 開發。 具體來看,之前的 NLP(Natural Language Processing,自然語言處理) 技術棧相對較淺,假設需要對一段文本進行詞向量表示,要先將這段文本轉化為詞向量,然后將向量數據輸入到模型中處理,最后模型輸出結果。整個過程可以看作是由輸入端到輸出端的多個階段組成,一個小團隊就可以完成架構搭建。雖然這種技術棧有助于保持一致性,但對于 LLM 來說,這種方式能力差強人意,還不夠“性感”。 對于新的 LLM 應用技術棧,目前流傳較廣、也較為全面的是硅谷風投公司 Andreessen Horowitz 發布的下面這張圖,圖中涵蓋了數據管道、API 插件、存儲、LLMOps、日志等方方面面。 而 LLM 應用理念的基本組件有四個:數據源、數據工程、LLM 和應用程序。其中,數據源層是管道的起點,負責協調從各種來源獲取大量數據;數據工程層專注 NLP 數據的實時處理;LLM 層是核心,包括各種微調方法等;應用層則面向個人用戶,提供咨詢、程序開發等不同的服務。 目前,業內將 LLM 分為兩類:通用模型和行業模型。通用模型面向各種通用功能設計,通常由資源豐富的大公司主導,如 OpenAI、Google 和 Meta。但在電商、客服和輔助教學等特定行業場景下,通用模型并不完全適用,同時個人或小型企業在業務規模較小時也沒有足夠的資源支撐通用模型,這時的另一個可選項就是用特定場景數據對通用模型微調得到的行業模型。 在這種分類影響下,LLM 應用主要有兩種:基于通用模型構建的應用和基于特定行業模型的應用。 對于前者,開發者在通用模型的支持下,直接調用 API(Application Programming Interface,應用程序編程接口)就能夠構建很多應用。許多企業會選擇直接購買通用模型提供商發布的 API,如 OpenAI 提供的 GPT-4 接口,并在上面進行 UI(User Interface,用戶界面)開發。開發過程中,開發者輸入自然語言就可以實現開發操作,這個過程更像是一種交流,而不是僵硬的執行。 與此同時,企業還會開發很多功能不同的插件集成到應用中,讓應用變得更加豐富和靈活。插件模式在國內得到了廣泛應用,無論是要開發一個新的應用,還是嵌入到現有的像 Slack、微信等平臺,插件模式都具有極強的滲透力。 這種使用 API 的開發模式會讓 LLM 應用在未來很長一段時間里趨于標準化。不過,這種模式主要依賴大公司發布通用模型進行更新和迭代,企業用戶雖然可以更方便地使用通用模型,但很容易跟不上大公司的迭代速度。 對于后者,企業可以通過微調擁有自己的行業模型,進而構建相應的應用。模型微調具備少數據、少參數、強任務的泛化能力,具體實現方法很多,不少企業開發者都在嘗試。 據悉,30B 參數以上規模的 LLM 比較適合用來構建應用:能力足夠強,顯存需求最低但還有擴展空間。開發者可以根據場景特點做取舍,比如金融領域的量化表達應用不必是 32 位或 64 位浮點數,8 位就足夠好,但不能再降低否則性能會大幅下降。內存方面,8 位浮點數至少要 10G 左右,移動端還可以考慮用通信換存儲。 目前,中美 LLM 應用的軟件技術棧存在一些區別。美國更傾向于水平分層的結構,即某些公司如 OpenAI 位于通用模型的層級上方,并給下游公司提供接口,下游公司再將服務提供給最終用戶。 相比之下,國內更多采用垂直分層的結構。國內企業目前在生成式人工智能技術上處于相對劣勢的位置,如果做不出高度先進的通用模型,那就會將精力放在尋找大量合適的應用場景上,這些企業能夠自行訓練開源的通用模型得到自己的行業模型,并直接服務于特定的垂直領域。 事實上,業內人士普遍認為,國內的機會就在于行業模型。行業模型擁有行業數據優勢,只需要修改開源通用模型代碼、投喂特定的行業數據,并服務于已有的用戶來優化體驗,就可以達到降本增效的目的。因此,緊密貼合具體應用場景的行業模型,像金融、醫療、教育等在數據方面有獨特優勢的 LLM 項目備受風投們青睞。 “當前比較流行的通用模型 ChatGPT 和 Llama2 已經做得很好,OpenAI、Meta 早期投入了巨額 GPU 算力成本、訓練了海量數據,也提供了比較好的產品體驗,如今大量用戶涌入又提供了新的數據幫助企業優化模型,已經形成了'強者恒強’的趨勢。”Chainfir Capital CEO 田大超表示。另外,基于通用模型的應用還存在大量技術不成熟的地方,風投們認為過早投入這一領域的風險太高,很難形成規模效應。 都知道做 LLM“燒錢”,但到底能“燒”多少?我們可以姑且看下 Bloomberg 訓練出來的金融大語言模型 BloombergGPT。 BloombergGPT 參數規模高達 500 億,使用了包含 3630 億 token 的金融領域數據集以及 3450 億 token 的通用數據集。雖然測試中這個模型在金融方面表現不俗,但 BloombergGPT 有著密集的計算需求,使用了大約 130 萬 GPU 小時進行訓練,以亞馬遜云科技 2.3 美元的費率計算,每次訓練成本已經接近驚人的 300 萬美元了。可以說,一般企業承擔不起這樣的費用。 開源是現在大家降本的基本解法。比如與 BloombergGPT 相比,同為開源金融模型的 FinGPT 通過專注于頂級開源 LLMs 的輕量級改編,提供更容易訪問的解決方案,可以讓訓練成本大幅下降,每次訓練費用不到 300 美元,成本下降了 1 萬倍。 在訓練 LLM 的時候,業內也會通過給 LLM“瘦身”的方式降低成本。比如對于 7B、13B 的 Llama 2,開發者首先可以做一定的限制,如將其調整為 Int8 類型以減小模型尺寸。接下來,開發者可以對模型進行低復雜度微調,具體做法是將原本線性的 QKV(Query,Key,Value)層設計簡化成更為精簡的結構,即將權重矩陣分解成多個小矩陣,從而大幅減小 LLM 的規模。 示意圖,來源:https:///pdf/2205.05638.pdf 劉小洋團隊研發的開源金融模型 FinGPT 就是通過使用 LoRA(Low-Rank Adaptation of Large Language Models),將可訓練參數數量從 61.7 億減少到僅有 367 萬。整體下來,該模型在顯存方面的需求從 38G 降低到了大約 13G,而且微調所需的時間也被顯著縮短,通常在 8 個 GPU 小時內就可以完成,有時甚至只需要 6 個小時,而費用則保持在 1000 元以下,甚至低至 600 元。與此同時,FinGPT 的性能提升了 30%。 以上數據顯示出了企業在利用開源大型模型進行微調時可以擁有的強大成本優勢。在進行 LLM 微調時,通常需要直接調整模型的權重,而那些提供基礎模型 API 的企業則更多是提供接口服務,如果購買模型的權重,費用將會高得多,并且可能需要簽署保密協議,預計花費可達在 2000 萬人民幣左右。 另外一項不可忽視的成本就是人力。田大超以這段時間爆火的妙鴨相機為例道,這樣一款產品的開發周期實際上很短,起初團隊也就7個人左右,就是他們內部被稱為“AIGC破壁行動小組”的一個以張月光為leader的小團隊,也就用了6個月左右的時間就做出來了。這樣一款 LLM 應用總投入成本大概是小幾百萬人民幣,其中人工成本占大頭,其次是租用算力的成本和調用 API 的成本。 目前生成式人工智能領域的上下游關系已經逐漸建立起來了:上游是芯片廠商,如英偉達;中游是通用級別的大模型公司,如 OpenAI;中下游是細分領域的大模型廠商,如 Bloomberg;下游就是一些 LLM 應用,如 Midjourney。普通用戶最能感知到的就是面向 C 端的各種 LLM 應用,比如 AI 繪畫工具 Midjourney、Stable Diffusion,AI 音頻生成工具 Forever Voice 等。 一方面,現在 LLM 應用的研發方式決定了“生態”的重要性。比如,使用 OpenAI GPT 模型的用戶自成一個生態,使用開源 Llama 模型的用戶又自成另一個生態,最后開發者選擇哪一種研發方式本質上就是選擇進入哪個生態。 另一方面,以搜索為例,將 ChatBot 整合到搜索引擎這樣的大型平臺中,需要足夠龐大的搜索引擎用戶基礎,這樣才能夠迅速解決可能出現的問題。開發者必須具備全網范圍內思考的能力,了解全球用戶的搜索習慣,對信息檢索有充分的理解。然而,并非所有人都能做到這一點。因此,“整合”游戲說到底還是生態游戲。 LLM 應用的本質還是商業產品,營收模式還是以用戶付費購買服務為主,比如妙鴨相機要付費后才給用戶改變形象后的照片,這與美圖秀秀收會員費類似。這種模式與過去各種應用的商業邏輯是一樣的,即用戶流量為王。 用戶在誰家,誰才能笑到最后。就像劉小洋說的,在 IT 行業,有許多第一批實踐者最后成為炮灰的案例,能否走到最后取決于用戶選擇哪家公司、用戶對什么產品感興趣。廣大用戶構成最終市場,這個市場進而支撐起大模型的更新迭代。 當前,行業模型發展的關鍵已經不是模型本身的能力如何,而是它們在某一領域的專業知識、專業數據的積累,專業能力多強,它們未來的壁壘就有多高。 未來短期內,通用模型和各領域的行業模型賽道,最后可能分別只有一兩家企業能夠脫穎而出。而長期看,做得好的通用模型可能會創造巨頭公司。同時,隨著通用模型的專業度越來越高,通用模型會掌握大多數垂直領域的專業知識,不排除未來行業模型被通用模型替代的可能。 LLM 應用剛起步不久,如果要長期發展下去,每個環節都面臨著不同的問題:在算力方面,電子芯片的能耗太高,70% 的能耗被用在散熱上,這造成了巨大的能源浪費,行業急需出現效能更高的芯片;在算法方面,人工智能發展到一定階段后可能會面臨數學領域最高深問題,算法也需要不斷提高和優化;在數據方面,隱私、數據所有權等問題亟待解決,尤其隨著人工智能的快速發展,政府、機構、公司和個人都極其關心自己的敏感數據是否會泄露,數據處理變得十分重要。 可以看出,LLM 應用行業未來需要努力的地方還有很多,但這也是留給后來者的機會。現在處在技術前沿、風光無限的企業未來未必一定成功。如今競賽才剛剛開始,入局的開發者們如何能在這條路上一直走下去,還需要時間給出答案。 劉小洋,哥倫比亞大學電子工程系研究員,倫斯勒理工學院計算機系講師,開源項目 FinGPT、FinRL 和 ElegantRL 的主創 田大超,Chainfir Capital CEO |
|