摘要 Open AI公司推出的ChatGPT以最快速度(5天)突破百萬用戶,并不斷更新迭代,2023年3月推出最新版本Chat GPT4.0,產生現象級效應。本文基于專利視角分析ChatGPT相關技術創新路徑,闡述主要技術創新點,詳細分析國、內外主要申請人的專利布局情況,探討專利分析角度下的GPT技術局限性,從而期望對國內大模型技術發展有所啟示。 OpenAI成立于2015年,是由美國著名創業孵化器Y Combinator的總裁Sam Altman和特斯拉的CEO馬斯克(Elon Musk)發起的讓全人類受益的非盈利組織。OpenAI承諾開源所有技術,鼓勵研究人員公開發表工作成果,將專利(如果有的話)與全世界共享,避免使用危害人類或過度集中權力的AI或AGI(通用人工智能)。2018年,因公司經營理念問題,馬斯克與OpenAI分道揚鑣。在研發AI模型的過程中,OpenAI面臨越來越大的經濟壓力,最后不得不在2019年轉變為盈利性公司,之后獲得了微軟10億美元的投資。2022年1月,路透社援引的Semafor報告稱,微軟正考慮投資100億美金給OpenAI(總估值290億美金)。ChatGPT是OpenAI于2022年11月推出的人工智能聊天機器人程序,該程序是在GPT-3.5(一種自然語言預訓練大模型)基礎內核上使用監督學習和強化學習進行訓練所得到的模型。在監督學習過程中,ChatGPT收集了全新的人類對話語料,并將其與GPT-3.5的監督學習語料合并。在強化學習過程中,ChatGPT首先訓練了一個得分模型來對模型輸出進行排序,然后用該得分模型來對生成模型輸出進行反饋,并優化該生成模型。最終由強化學習得到的模型即為ChatGPT。ChatGPT以文字方式互動,可以實現與人類對話交互,還可以實現文本生成、自動問答、自動摘要等在內的多種任務。ChatGPT的成功來源于更早期發布的GPT-3模型以及對RLHF的優化。GPT是Generative Pre-trained Transformer(生成型預訓練變換模型)的縮寫。它是基于Transformer架構(2017年由谷歌提出),GPT的主要優勢在于它可以通過預訓練大量語料數據來獲得對語言任務的預測能力,而不需要大量的人工標注數據。它具有良好的語言生成能力,可以生成文本、回答問題、對話等多項語言任務。RLHF(Reinforcement Learning from Human Feedback人類反饋強化學習)是一項涉及多個模型和不同訓練階段的復雜概念,包括以下三個步驟:預訓練一個語言模型(LM);聚合問答數據并訓練一個獎勵模型(Reward Model,RM);用強化學習(RL)方式微調LM。2023年3月15日,多模態預訓練大模型GPT-4正式發布,能夠處理文本、圖像兩種模態以及25000個單詞的超長文本輸入,并通過文本輸出。GPT-4能夠很好的支持圖像輸入,能夠理解圖片中的幽默之處,并且具備理解長上下文的能力,在各種專業和學術基準測試上表現出人類水平,包括通過模擬律師考試,分數約為全體考生的前10%。相對于以前的GPT-3.5模型,GPT-4明顯減少了“幻覺”,在團隊內部對抗性設計的事實性評估中,GPT-4的得分比GPT-3.5高19個百分點。但是,考慮到GPT-4這樣的大模型的競爭格局和安全影響,OpenAI并未公開有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的更多詳細信息。目前,ChatGPTPlus版本已經使用GPT-4模型。智譜AI團隊研究發布的《ChatGPT團隊背景研究報告》稱,2023年2月,ChatGPT團隊規模不足百人(共87人)。分析發現,其顯著特征是“年紀很輕”、“背景豪華”、“聚焦技術”、“積累深厚”、“崇尚創業”和“華人搶眼”。該團隊平均年齡為32歲,“90后”是主力軍。他們引領的這一波大型語言模型技術風潮,充分說明了那些經常被認為研發經驗不足的年輕人,完全有可能在前沿科技領域取得重大突破。團隊成員絕大多數擁有名校學歷,且具有全球知名企業工作經歷。華人學者歐陽龍參與了與ChatGPT相關的7大技術項目中的4大項目的研發,他是InstructGPT論文的第一作者,是RLHF論文的第二作者,可見他是這兩個關鍵技術項目的核心人員。在世界著名的DWPI摘要數據庫中,以申請人(OpenAI)、發明人(InstructGPT、GPT-3等技術對應論文作者)、結合“NLP”、“語言”、“訓練”等關鍵詞進行檢索,發現OpenAI公司作為權利人的專利數量為零,同時采用多種商業數據庫進行搜尋,均未發現OpenAI名下任何專利。分析其原因,OpenAI在成立之初作為非盈利組織,期望開源所有技術,專利制度作為公開換保護的一種方式,申請專利對于非盈利組織不是必須的,而OpenAI轉變為盈利性公司后,考慮到ChatGPT、GPT-3、GPT-4屬于黑盒模型,且模型的訓練花費龐大,開發和部署都很復雜,對于其他公司或科研院所而言很難復現,不通過專利也能實現技術保護,通過商用API(Application Programming Interface,應用程序編程接口)等方式即可獲利,另一方面,對于訓練語料獲取、模型算法而言,可能會涉及專利不授權客體問題,不能進行專利保護,而即使不涉及客體問題的,由于訓練等步驟的不可見性,在專利授權后也很難進行維權,因此OpenAI公司有可能通過商業秘密進行技術保護。根據OpenAI官網公開的ChatGPT技術原理圖分析得知,ChatGPT的訓練過程分為以下三個階段:第一階段:訓練監督策略模型。首先會在數據集中隨機抽取問題,由標注人員給出高質量答案,然后用人工標注好的數據來微調GPT-3.5模型,獲得SFT(Supervised Fine-Tuning)模型。第二階段:訓練獎勵模型(Reward Model,RM)。在數據集中隨機抽取問題,使用第一階段生成的模型生成多個不同的回答。標注人員對輸出進行打分排序,使用排序結果數據來訓練獎勵模型。第三階段:采用強化學習中的PPO(Proximal Policy Optimization,近端策略優化)來優化策略。首先使用第一階段中的初始權重構造一個初始的PPO模型。針對在數據集中采樣的新的問題,使用PPO模型生成回答,并用第二階段訓練好的RM模型給出回報分數。PPO策略可以會通過回報分數計算出策略梯度,并更新PPO模型參數。隨著2017年谷歌Transformer模型的提出,預訓練語言模型開始顯著發展,因此本文關于預訓練語言模型技術的檢索主要針對2017年之后申請的專利。在DWPI摘要數據庫中,針對關鍵詞“language model”、“train”、“fine-tune”進行簡單檢索,共有2600多篇專利文獻。檢索結果僅針對專利摘要進行檢索,且為專利同族合并后的結果。在預訓練語言模型領域,中國企業發展迅速。百度、阿里、騰訊、華為都是主要申請人,且均在海外展開布局,國外申請人主要集中在微軟、谷歌和三星。但是還應注意到,國外一些公司針對神經網絡、編解碼器結構改進的專利技術方案,在摘要中并沒有提到語言模型,但是神經網絡等是可以應用到語言模型中的,因此實際上關于預訓練語言模型技術的申請量會更多。為了更全面地了解國外申請人在中國的布局情況,針對全文數據再次檢索,并統計合并同族的結果。谷歌多年來陸續提出Transformer、BERT、T5等模型,目前針對Transformer申請相關美國專利(US2018341860A1,專利名“基于注意的序列轉換神經網絡”),并在中美歐日韓等多個國家布局。BERT、T5雖未申請專利,但是我們經檢索發現,其專利布局涵蓋了基于上述模型衍生的下游任務,在多語言翻譯、文本語音轉換、完型填空、稀疏表示、情感分類等領域有所技術改進。2021年,谷歌提出了SwitchTransformer模型,采用了稀疏激活技術,擁有1.6萬億參數,相同資源情況下,訓練速度比由谷歌開發的最大語言模型T5-XXL快了4倍,谷歌就該模型申請相關PCT國際專利申請WO2022150649A1(NEURALNETWORKSWITHSWITCHLAYERS),目前并未進入任何國家階段。谷歌也在模型訓練、微調等方面開展專利布局。基于BERT模型,微軟于2020年提出了DeBerta模型,并提交申請相關美國專利“具有解開注意力和多步解碼的高效變壓器語言模型”(US2021334475A1),利用多步解碼來更好地重建掩蔽標記并改善預訓練收斂來促進預訓練的自然語言模型的自訓練。2021年提出的LORA模型主要涉及神經網絡模型的低秩自適應,凍結了預訓練的模型權重(相關美國專利US2022383126A1)。此外,微軟也在下游任務進行專利布局,例如其申請的PCT國際專利申請WO2022221045A1涉及多任務模型,包括例如共享編碼器、多個任務特定編碼器和用于多個任務的多個任務特定線性層等。在Patentics的英文全文庫中以“DeepMind”(DeepMind為Google旗下前沿人工智能企業)作為申請人,language model作為關鍵詞進行檢索,檢索結果為27篇。DeepMind側重于對神經網絡的改進。中國專利“針對使用對抗訓練的表示學習的推理的大規模生成神經網絡模型”(CN113795851A),訓練可以是基于損失函數,該損失函數包括基于由鑒別器神經網絡處理的輸入對的樣本部分和潛在部分的聯合鑒別器損失項和僅僅基于輸入對的樣本部分或潛在部分中的一個部分的至少一個單一鑒別器損失項,該專利在中美等國均有布局,根據英文庫中檢索得到的專利查找其中文同族,可以確定DeepMind在中國申請使用淵慧科技有限公司名稱。由圖5可以看出,DeepMind在多模態方面也有所布局,涉及凍結語言模型的多模態少樣本學習以及使用多模態輸入選擇操作。多模態的語言模型是一種能夠同時處理不同類型的數據,如文本、圖像、音頻和視頻的人工智能技術。多模態語言模型的目標是實現跨模態的理解、生成和交互,從而提高人機對話和信息檢索的效果。谷歌近期申請了基于UI的多模態模型,例如美國專利US2023031702A1通用用戶界面轉換器(VUT),處理三種類型的數據:圖像、結構(視圖層次)和語言,并且執行多個不同的任務,諸如UI對象檢測、自然語言處理、屏幕摘要、UI可敲擊性預測。微軟的PCT國際專利申請WO2022187063A1則公開了一種視覺與語言的跨模態加工方法,基于視覺語義特征集和文本特征集來訓練目標模型,以確定輸入文本和輸入圖像之間的關聯信息。在Patentics的中文數據庫中,以“預訓練”、“大規模”、“語言模型”、“微調”、“零/少樣本”、“知識圖譜”等作為關鍵詞進行簡單檢索,共檢索出12292篇專利,我們可以看出國內預訓練大模型技術自2018年后開始迅速發展,鑒于目前21年、22年申請的專利未全部公開,實際上該領域的專利申請數量可能更多。2019年3月,百度提出文心大模型ERNIE,隨后百度在知識圖譜、語言理解與生成技術、以及機器翻譯、對話系統、摘要生成、長文本語義、文本糾錯等領域都進行布局。其中知識圖譜包括實體知識圖譜、行業知識圖譜、事件圖譜、關注點圖譜以及多模態圖譜。華為與清華大學、哈爾濱工業大學、中國人民大學等高校均有合作,語言模型包括自回歸模型,并在模型訓練方法、量子電路進行模型復數運算、降低訓練PLM所需資源、文本向量等方向進行專利布局。圖9給出了國內語言模型相關專利發展情況。其中,中國專利CN110717339A通過構建詞語片段、句子以及文章三個不同層級的無監督或弱監督預訓練任務,使得語義表示模型可以從海量數據中學習到詞語片段、句子以及文章不同層次的知識,增強了通用語義表示的能力,提升NLP任務的處理效果,百度公司的這項專利還獲得了第二十三屆2022中國專利獎優秀獎。針對多模態模型,百度的中國專利CN115374798A提出將跨語言預訓練目標和跨模態預訓練目標無縫地組合在統一的框架中,從可用的英文圖像字幕數據、單語語料庫和平行語料庫在聯合嵌入空間中學習圖像和文本。華為的中國專利CN115688937A將不同模態的數據的特征表示映射到同一個離散空間中,可以基于該離散空間對多模態的特征表示進行建模,得到兼容多模態輸入數據的模型。而針對類似于ChatGPT的人機交互應用,國內申請人也有相應的專利布局,但未進行海外布局。目前免費版ChatGPT使用GPT-3.5版本(以下稱為ChatGPT-3.5),具有出色的上下文對話能力,但是尚不能進行多模態交互,缺乏解決數學問題的能力,并且對于一些專業領域缺少足夠的數據進行訓練,導致無法常常無法生成適當回答。例如,筆者嘗試用ChatGPT-3.5闡述美國專利US2021334475A1的技術方案,它可以完整地描述出專利的發明名稱、技術方案等,但是這個專利文本實際上是微軟公司于2020年6月24日申請的名為“具有解開注意力和多步解碼的高效變壓器語言模型”,公開日為2021年10月28日,ChatGPT-3.5的回答完全文不對題。至少ChatGPT-3.5無法做到專利號和發明內容的簡單對應,這可能是缺少相關專利語料造成的。鑒于微軟將GPT-4整合進NewBing中,筆者通過NewBing的聊天功能搜索美國專利US2021334475A1。雖然它能夠完整的給出所有信息,但是除了發明名稱是正確的,申請日、公開日、申請人、發明人信息都是錯誤的(見圖11)。就此次結果而言,New Bing更傾向于在搜索的基礎上對信息作出完整的補充,并不能保證真實性。需要注意的是,New Bing在多次嘗試后,也會給出錯誤的答案(見圖12)。ChatGPT-3.5以及NewBing都不能完整的提供專利文件信息,那么針對法律條款是否能獲得較好效果呢?筆者分別向ChatGPT-3.5和NewBing詢問“專利的技術方案是無法實現的,需要用到中國專利法的哪個法條”,ChatGPT給出的答案類似于使用大量法律文獻訓練模型的結果,雖然看似準確,但涉及的條款及其規定都不是中國專利法的內容,而NewBing則是搜索加工的結果,找到了適合的條款,但是法條規定的內容與該條款毫無關系。因此,ChatGPT-3.5和NewBing都不能保證生成內容的準確性。圖13 ChatGPT-3.5與New Bing聊天功能對比 探究其原因,GPT-3.5只是基于本地的語料庫進行搜索,沒有聯網,所以對于很多無法獲取的信息會進行杜撰,缺乏準確性,但是GPT-4和New Bing是具有聯網形態的大語言模型,回答問題時會首先通過用戶的詢問在互聯網上搜索相關的語料進行補充,所以可以杜絕部分杜撰的情況,但是對于非常見的問題,或者是信息缺失的情境下,還是會有編造的風險。此外,ChatGPT的訓練和部署都需要大量算力來支持,因此可能需要更輕量化的模型。對于國內企業而言,需要通過加深國內產學研合作方式推動大模型發展。根據公開資料檢索發現,鵬城實驗室與華為合作開發盤古大模型,與百度合作開發鵬城-百度·文心大模型;另一方面,華為把科研院所、產業廠商等結合起來,以期更好地讓大模型產業形成正向的閉環回路。大模型的未來需要原始性創新,也需要自我生長,向可持續、可進化的方向發展。人工智能技術近年來呈指數型發展趨勢,在當今政治經濟環境下,我們更應強調原始創新的重要性,掌握根技術,但也不能拘泥于閉門造車,要求事事從零起步,要重視國際國內合作交流,實現大模型的可持續演化。如今的人工智能研究,已經突破單兵作戰,“小作坊”式的埋頭鉆研無法在當下競爭日益激烈的環境中產出突破性科研成果。ChatGPT的橫空出世也是基于前期幾十億美金的投入,大成果的產出必須依托大平臺。國內應大力扶持高端科研平臺,從數據、算力、工程創新能力三方面,三位一體加快建設大科學設施集群。科技創新的競爭本質是科技人才的競爭。從前文分析可知,OpenAI的成功除了大量算力的投入,更重要的是聚集了大量頂尖的科學家和工程師。面向全球吸引具備攻克技術難關能力的杰出人才,選拔具備國際影響力的領軍人才,培育具備較高發展潛力的青年人才,將會是國內人工智能發展的重要手段。大模型技術的紅利期還很長,ChatGPT的火爆出圈并不代表國內完全喪失先機,只能做跟跑者。文本語言類大模型,OpenAI走在前列,但在多模態大模型領域,世界各國科學家還在攻克技術難題。國內要想在新一輪人工智能科技創新中成為領跑者,就必須要學會差異化競爭,做出中國特色。大模型技術的演化一定會越來越強調科技倫理治理、系統安全性,在安全倫理方面的建設,突出中國價值觀,也是我們需要關注的重點。
|