隨著ChatGPT的出現,自然語言處理技術的發展再次引起業界的注意。而ChatGPT模型1750億參數的規格,使得業界大力訓練超大規模參數的模型,也就是基于大規模參數的語言模型。隨后出現了大量大語言模型,如Meta AI的LLaMa和基于該模型的Alpaca、Vicuna,國內復旦大學團隊推出了MOSS模型,清華大學團隊推出了ChatGLM模型。 ![]() 大語言模型的能力 大語言模型之所以再次引起注意,是因為其可以按照人類語言語法生成文本,而且文本與問題相關。那么大語言模型除了人工智能領域的Transformer、參數等技術屬性和規格屬性之外,還具有什么特征呢? 根據現有大語言模型的表現,以及NLP領域的研究,我們認為大語言模型主要包含了知識內容和推理能力。根據神經網絡的技術架構可以推斷出大語言模型存儲的內容主要是權重,知識內容主要是通過大規模語料訓練使得大語言模型在已知文本的情況下可以預測到在人類語言中與已知文本最相關的下一個字,從而在形式上讓人感覺到大模型存儲了知識。 而推理能力則是因為參數超大規模后涌現出來的一種能力,其科學機理仍在研究中,但是從表現來看,大語言模型已經具備鏈式思考的能力。尤其是通過提示(Prompt)告訴大語言模型如何推理問題,使其更有效、更正確地按步驟推理問題。 大語言模型應用場景 高等教育信息化主要是指發揮信息化在教學、科研、管理和生活中的作用,提高四個領域的效能。根據前幾年的探索,我們把大語言模型定位在新型的人機交互接口、副駕駛(Copilot)或者助手。這種定位主要描述了大語言模型不能取代人類,只能在人類的指導下,幫助人類去完成特定工作。 在自然語言處理分為自然語言理解和自然語言生成的基礎上,針對高校育人為本的任務,我們把大語言模型適用的場景分為三類:內容創作助手、內容消費助手和任務過程助手。 內容創作助手主要是指根據師生指令從無到有地生成內容,譬如撰寫郵件、撰寫報告等。內容消費助手則是指基于現有知識庫回答師生的問題,譬如智能客服、新型業務入口。任務過程助手則是指人工智能根據問題自動思考解決問題的子任務并按序自動執行這些子任務,最終解決問題,譬如Auto GPT。 根據以上分類,我們首先試驗了上海海事大學官方網站上內容的問答交互方式。在該試驗下,訪客不再通過搜索引擎訪問,而是由人工智能自行檢索相關內容并給出答案。 另一個試驗是在學校門戶上集成了規章制度、通知公告、新聞動態的問答系統,以及網上辦事中心的業務檢索系統。下一步,我們將探索根據語音輸入結合數據智能生成業務申請表單,而大語言模型在教學、科研中的作業則因學科特點和研究內容的不同差異較大,只能有針對性地引入大語言模型。 大語言模型的微調 目前,開源大語言模型訓練的語料多是英文語言,無法直接適用于國內中文環境。此外,開源模型的語料多是網上公開的內容,內容的準確性、專業性都有待考量。因此,開源模型無法直接在高校落地應用,必須對其進行定制微調。 大語言模型定制的方法主要有精校技術、參數高效微調(PEFT)技術和提示微調技術。自然語言處理的神經網絡模型基本采取了預訓練和精校兩階段的策略。這種策略主要是將重復的、高成本的訓練過程獨立出來,形成階段性的預訓練模型,之后再根據不同應用場景進行適配性的精校,從而達到高效復用的目標。這種策略吸引了大量研究人員投入自然語言處理領域的研發,也推動了自然語言處理技術再應用。 精校技術在中小模型的模型微調中是適用的,但是對于大規模語言模型則因為參數規模非常大,精校的成本非常高,讓人卻步。而PEFT技術的出現則比較好地解決了這個問題,其在盡可能減少所需參數和計算資源的情況下,實現對預訓練語言模型的有效微調。 這種技術特別適用于對英文大語言模型加入中文語料的微調,使之同樣理解中文語義。目前常見的Alpaca、Vicuna模型均是通過PEFT技術進行微調所得。提示微調則是使用大語言模型的能力,重點通過調整輸入提示,求得問題的答案,其對模型并不進行改造。 常見大語言模型 除了閉源的以服務方式運行的ChatGPT大語言模型外,Meta AI發布了開源模型LLaMa,斯坦福大學團隊在此基礎上通過微調技術生成了Alpaca模型,之后多家機構聯手發布了同樣基于LLaMa的Vicuna。130億參數的Vicuna模型能力接近于OpenAI的GPT-4模型。 以上開源模型主要適配英文,對中文的效果不理想,近期出現了對以上開源模型的中文微調模型。而BLOOMChat多語言大模型則直接支持了中文,但是其模型文件大小超過100GB。清華大學團隊的ChatGLM和復旦大學團隊的MOSS模型也是可用的模型之一。 除了開源大語言模型,國內還出現了云服務方式提供的大語言模型,如百度的文心一言、科大訊飛的星火和阿里的通義千問等模型。云服務方式的大語言模型需要用戶將文本傳給云端進行處理,部分用戶不一定適用這種模式,可能更喜歡本地化部署。 本地化部署大語言模型 大多數高校使用大語言模型主要是通過提示微調的方式,而非通過PEFT技術對模型進行微調。提示微調的方式側重于應用,恰好符合了高校教育信息化的特點,也是最早可行落地的方案。圖1是通過提示微調使用大語言模型的流程。 ![]() 圖1 通過提示微調使用大語言模型的流程 該流程主要分為四個步驟:第一步,用戶對前端代理提出問題;第二步,代理提交問題給向量數據庫,獲得相關文本片段;第三步,代理將問題和文本片段提交給大語言模型,大語言模型作閱讀理解,返回問題答案;第四步,代理將答案反饋給用戶。 通過以上步驟,可以看出本地化使用大語言模型的核心點在于查找問題相關的文本片段和大語言模型作閱讀理解的能力。 大語言模型應用試驗 為了能夠選擇足夠好的解決方案,我們對查找問題相關的文本片段和閱讀理解能力進行了實驗。我們節選了學校主頁上的學校介紹、網上辦事中心的服務指南、新聞,作為知識庫,并整理了9個問題,針對這9個問題評估詞向量模型、向量數據庫和大語言模型的優劣。 1.詞向量模型 據表1可知,OpenAI的詞向量模型最佳,其次是chinese-roberta-wwm-ext-large,該模型是與GPT同期出現的基于Transformer技術的BERT模型,擅長閱讀理解,故而其語義相關性的能力在開源模型中相對較強。 表1 詞向量模型測試結果 ![]() 2.向量數據庫 向量數據庫有多種產品,如提供云服務的Pinecone,開源的Chroma。經過以上9個問題的測試,結果都是100%命中,所以在此不予以列表展示。 3.大語言模型 人工挑選出針對9個問題的文本,將問題和文本提供給大語言模型去理解并給出答案。同時,為了驗證提示微調的技術,同一個文本和問題分別提供有提示和無提示兩種方式實驗。 據表2可知,OpenAI(GPT-3.5-Turbo)模型是最佳模型,在沒有提示的情況下,所有問題均給出了較為通順的答案。其次是中文微調過的Alpaca 7B模型,9個問題中僅錯了1個。 表2 大語言模型理解測試結果 目前,大語言模型依然在快速進化中,但是針對中文的詞向量模型和大語言模型還不夠完美,仍需要進一步優化。高校在信息化過程中,可以按照新型人機交互接口的方式去探索大語言模型的應用方式,挖掘更多的應用場景。對于企業,則可以探索利用大語言模型助力教學過程的應用場景。 注:本文實驗僅代表在特定實驗環境下的結果,不代表該模型的全部能力評估。 作者:王玉平(上海海事大學信息化辦公室) |
|