萬字長文：LLM - 大語言模型發展簡史

漢無為 2023-05-07 發布于湖北

展開全文

Large Language Model（LLM）是一種基于深度學習的自然語言處理模型，它能夠學習到自然語言的語法和語義，從而可以生成人類可讀的文本。LLM 通常基于神經網絡模型，使用大規模的語料庫進行訓練，比如使用互聯網上的海量文本數據。這些模型通常擁有數十億到數萬億個參數，能夠處理各種自然語言處理任務，如自然語言生成、文本分類、文本摘要、機器翻譯、語音識別等。

“large language model” — Image Creator[1] powered by DALL·E

2020 年 OpenAI 發布 GPT-3[2]，大型語言模型（LLM）自此在流行度上一直保持穩定的增長。

直到 2022 年 11 月份，隨著 ChatGPT 發布[3]，LLM 和生成式人工智能的整個領域的興趣飆升。這些原因可能是 LLM 領域持續向前邁進的重大進展所致。

從谷歌 LaMDA 聊天機器人的驚人新聞（Blake Lemoine Says Google's LaMDA AI Faces 'Bigotry'[4]），首個高性能的開源 LLM BLOOM[5] 發布，再到后來 OpenAI 接連發布 ChatGPT Plus[6]、ChatGPT 和 Whisper API[7]、ChatGPT 插件[8] 和 GPT-4[9] 等等，不斷將 AI 推向高潮。

BLOOM[10]：是一種自回歸的大型語言模型 (LLM)，使用工業級計算資源在大量文本數據上訓練，能夠在 46 種語言和 13 種編程語言中輸出幾乎無法與人類寫作的文本相區分的連貫文本。BLOOM 還可以通過將其作為文本生成任務來執行它沒有明確訓練過的文本任務。

AI 應用也在爆炸式增長中，每天睜開眼睛都會出現一大堆新產品，許多網友表示學不動了。例如：微軟發布了《AI 全家桶：Microsoft 365 Copilot》，New Bing，GitHub Copilot X[11]，Google Bard[12]、Adobe Firefly[13]...（此處省略許多）等一系列 AI 產品。

下面就來盤點一下近期 LLM 開源生態發生的一系列事件（注意：以下這些整理僅限個人了解，并非全部）。

GPT 生態

DeepSpeed

DeepSpeed[14]: 是一個深度學習優化庫，它使分布式訓練和推理變得簡單、高效和有效。一鍵式 RLHF 訓練，讓你的類 ChatGPT 千億大模型提速省錢 15 倍。說人話就是：自己本地可以訓練部署類 ChatGPT 模型，既高效又省錢。（了解更多《DeepSpeed Chat：一鍵搞定不同規模 ChatGPT 類模型訓練！》）

MiniGPT-4

論文：

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models[15]

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training[16]

Flamingo: a Visual Language Model for Few-Shot Learning[17]

GitHub：Vision-CAIR/MiniGPT-4[18]

模型：Vision-CAIR/MiniGPT-4[19]

數據集：Vision-CAIR/cc_sbu_align[20]

在線體驗：Minigpt-4[21]

MiniGPT-4 是由一個包含預訓練 ViT 和 Q-Former[22] 的視覺編碼器，一個線性投影層和一個先進的 Vicuna 大型語言模型組成的。MiniGPT-4 只需要訓練線性層，以將視覺特征與 Vicuna 對齊。（了解更多《多模態 MiniGPT-4 開源了！》）

minGPT

minGPT[23] 是 GPT[24] 的 PyTorch 重實現，包括訓練和推理。minGPT 試圖做到小型、清晰、易于解釋和教育性，因為當前大多數可用的 GPT 模型實現都有點冗長。GPT 并不是一個復雜的模型，這個實現只有大約 300 行代碼（見 mingpt/model.py[25]）。它的主要功能是將一系列索引輸入到 Transformer[26] 中，并輸出下一個索引在序列中的概率分布。大部分復雜性只是為了有效率地進行批處理（跨示例和序列長度）。

nanoGPT

nanoGPT[27] 是一個訓練/微調中型 GPTs 的最簡單、最快速的存儲庫。它是 minGPT 的重寫。minGPT 被廣泛引用于各種場合（筆記本、博客、課程、書籍等），這使得作者不太愿意對代碼進行更大的變化。nanoGPT 將 minGPT 從單純的教育重點轉向一些具有實際應用性的方向（可以重現中型工業基準、接受一些權衡以獲得運行時效率等）。

GPT4Free

注意：此項目僅供學習研究，大概率涉及 OpenAI 侵權，請謹慎使用。

GPT4Free[28] 致力于幫助你釋放 ChatGPT 的全部潛力！是否已經厭倦了遇到需要 OpenAI API 密鑰的令人難以置信的項目，但最終因為沒有密鑰而感到失望？那么你可以試試此項目！項目提供了第三方 GPT-4/3.5 API 的反向工程版本，這些版本來自各個網站，讓你可以在沒有任何障礙（項目提供的可使用模塊，其設計就像 OpenAI 官方包一樣）的情況下開始你的項目。

AutoGPT

Auto-GPT[29] 是一個實驗性的開源應用程序，展示了 GPT-4 語言模型的能力。由 GPT-4 驅動，將大語言模型（LLM）的'思考'鏈接在一起，以自主地實現你設定的任何目標。作為 GPT-4 完全自主運行的最早的例子之一，Auto-GPT 推動了人工智能所能實現的界限。

簡單來說：當你告訴 AutoGPT 最終目標是什么，它將自行生成并完成每一步任務所需的提示，直到返回最終的結果（在這期間它會調用網絡和 GPT-4）。但 AutoGPT 之所以流行，是因為人們對它能做什么以及它對未來可能意味著什么著迷。AutoGPT 通過自己的推理達到目標的能力與人類的思考行為，處理信息的方式極其相似。

AgentGPT

AgentGPT[30] 允許你配置和部署自主 AI 代理。為自己的定制 AI 命名，并讓它開始實現任何想象的目標。它將通過思考要做的任務、執行它們并從結果中學習來嘗試達到目標。與 AutoGPT 類似，但它是網頁版。

AudioGPT

論文：AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head[31]GitHub：AIGC-Audio/AudioGPT[32]體驗地址：AudioGPT Demo[33]

AudioGPT 理解和生成語音、音樂、聲音和語音頭像。

DocsGPT

DocsGPT[34] 是一種先進的開源解決方案，簡化了在項目文檔中查找信息的流程。它集成了強大的 GPT 模型，使開發人員可以輕松地提出問題，并獲得準確的答案。告別耗時的手動搜索，讓 DocsGPT 幫助你快速找到所需的信息。

逆向工程

acheong08/ChatGPT[35] 是 OpenAI ChatGPT API 的逆向工程，可擴展為聊天機器人等。

acheong08/EdgeGPT[36] 是微軟 Bing Chat AI API 的逆向工程。

LLaMA 生態

LLaMA 基礎模型在 2023 年 2 月發布。到目前已經有幾個新的經過微調的 LLaMA 模型發布。

雖然時間不長，但已經發生了很多事情。本節（在 A brief history of LLaMA models[37] 基礎上，對內容進行補充）主要涵蓋一些模型的發展，并簡要涉及一些工具：

LLaMA 基礎模型

Alpaca 模型

Vicuna 模型

Koala 模型

GPT4-x-Alpaca 模型

WizardLM 模型

OpenAssistant 模型

用于在本地運行 LLaMA 模型的軟件，主要有以下這些：

ModelLLaMA (base model)

Size7B, 13B, 33B, 65B

Training dataVarious

ModelAlpaca

Size7B, 13B

Training data52k GPT-3 instructions

ModelVicuna

Size7B, 13B

Training data70k ChatGPT conversations

ModelKoala-distill

Size7B, 13B

Training data117k cleaned ChatGPT conversations

ModelGPT4-x-Alpaca

Size13B

Training data20k GPT4 instructions

ModelWizardML

Size7B

Training data70k instructions synthesized with ChatGPT/GPT-3

ModelOpenAssistant LLaMA

Size13B, 30B

Training data600k human interactions (OpenAssistant Conversations)

LLaMA 基礎模型

論文：LLaMA: Open and Efficient Foundation Language Models[38]

Blog：Introducing LLaMA: A foundational, 65-billion-parameter large language model[39]

GitHub：facebookresearch/LLaMA[40]

發布日期：2023 年 2 月

LLaMA（Large Language Model Meta AI）是由 Meta（Facebook）發布的一種語言模型。它是 Meta 對 OpenAI 的 GPT 模型的回應。與 GPT 一樣，LLaMA 旨在成為適合進一步微調的通用基礎模型。LLaMA 模型具有以下變體：

7B 個參數

13B 個參數

33B 個參數

65B 個參數

注意：參數越多，模型越強大，但運行時也需要更多的資源。

可訪問性

與 GPT 不同，LLaMA 是一種開源模型。你可以下載、學習并在本地運行它們。要嘗試它們，需填寫 Google 表單申請[41]。

然而，這些模型在 2023 年 3 月泄露到 Torrent 上，距離它們發布不到一個月（了解更多 Facebook LLAMA is being openly distributed via torrents[42]）。

Torrent：是一種點對點（Peer-to-Peer，P2P）文件共享協議，用于在多個計算機之間共享大型文件，例如電影、音樂、軟件等。與傳統的文件下載方式不同，Torrent 使用一種分布式的下載方法，將文件劃分成許多小塊，然后由不同的用戶在網絡上共享這些塊。這使得下載速度更快，同時也可以減輕單個服務器的負擔。為了使用 Torrent 協議，用戶需要安裝一個 Torrent 客戶端程序，例如 qBittorrent[43]、uTorrent[44] 等。然后，用戶可以通過 Torrent 網站或種子（.torrent）文件來獲取所需的文件，然后使用 Torrent 客戶端來下載它們。

目標

LLaMA 的目標是構建適合給定推理預算（例如，在 NVIDIA 3090[45] 上使用少于 10GB VRAM）的最佳性能模型。

NVIDIA 3090：GeForce RTX? 3090 Ti 和 3090 由 Ampere（NVIDIA 的第二代 RTX 架構）提供支持。它們具有專用的第二代 RT 核心和第三代 Tensor 核心、流式多處理器以及驚人的 24 GB G6X 內存，為玩家和創作者提供高質量的性能。

VRAM（Video random-access memory）：是一種計算機內存類型，用于存儲圖像、視頻等視覺內容的數據，通常是在顯卡中使用。它是一種專門為圖形處理而設計的高速 RAM，可以快速地讀取和寫入大量的圖形數據。顯卡的性能和可用內存大小直接影響著計算機的圖形處理能力和性能。在機器學習中，VRAM 的大小也是一個重要的考慮因素，因為大型模型需要大量的內存來進行訓練和推理。

模型架構

LLaMA 是一種 Transformer 模型，類似于 GPT，具有以下修改：

規范化每個變壓器子層的輸入，以提高訓練穩定性

使用 SwiGLU 代替 ReLU 以提高性能

使用旋轉嵌入而不是絕對位置以提高性能

下表總結了模型參數（作為參考：GPT-3 有 175B 個參數， LLaMA 模型則很小）：

Parameters6.7B

Layers32

Attention heads32

Embedding dimension4,096

13B

Parameters13B

Layers40

Attention heads40

Embedding dimension5,120

33B

Parameters33B

Layers60

Attention heads52

Embedding dimension6,656

65B

Parameters65B

Layers80

Attention heads64

Embedding dimension8,192

Transformer 模型：

是一種基于注意力機制（attention mechanism）的神經網絡模型，用于自然語言處理和其他序列數據任務。Transformer 模型最早由 Google 在 2017 年提出（Transformer: A Novel Neural Network Architecture for Language Understanding[46]），被應用于機器翻譯任務，并在各種自然語言處理任務中取得了優秀的表現。

與傳統的循環神經網絡（recurrent neural network，RNN）模型不同，Transformer 模型使用了全新的架構，即自注意力機制。自注意力機制可以使模型對輸入序列的不同位置進行加權，從而更好地捕捉輸入序列之間的依賴關系，使模型在處理長序列時更加高效和準確。Transformer 模型通常由編碼器和解碼器兩部分組成，可以用于各種序列到序列的任務，如機器翻譯、文本摘要、對話生成等。

訓練

LLaMA 的預訓練數據包括：

英語 CommonCrawl[47]（占 67%）：移除非英語文本和重復內容，僅包括用作維基百科參考的頁面

C4[48]（占 15%）：一個經過清理的 CommonCrawl 版本，應用了同樣的過濾器

Github（占 4.5%）：Google BigQuery 上可用的公共 GitHub 數據集

Wikipedia（占 4.5%）：涵蓋 20 種語言的 2022 年 6 月至 8 月期間的維基百科數據

Gutenberg 和 Books3（占 4.5%）：書籍數據集

ArXiv（占 45%）：科學數據

StackExchange（占 2%）：涵蓋科學和工程主題的高質量問答

分詞器使用了基于字節對編碼的 SentencePiece[49]（無監督文本標記器，用于基于神經網絡的文本生成），該訓練數據包含 1.4T 個標記。

Google BigQuery[50]：是一項全托管的云數據倉庫服務，可讓用戶分析和查詢大型數據集。它由 Google 云平臺提供，可以存儲和查詢 PB 級別的數據，而無需用戶管理任何基礎架構。用戶可以使用標準 SQL 查詢語言，通過 Web UI、命令行界面、API 等多種方式訪問 BigQuery 服務，并支持將數據導入到 BigQuery 中，以進行進一步的分析和處理。

表現

通過常識推理、閱讀理解和代碼生成等任務對模型進行評估。性能總結：

模型越大越好：在大多數任務中，更大的模型表現更好

提示中的示例越多越好：在自然問題任務中，給 LLaMA 7B 模型 5 個示例幾乎與不給 65B 模型示例一樣好

小型高性能模型：LLaMA 13B 的性能類似于 GPT-3，盡管參數只有后者的 1/10（13B 對比 175B）

LLaMA 在量化推理方面表現不佳：特別是小型的 7B 和 13B 模型

LLaMA 不像 ChatGPT 那樣針對指令跟隨進行調整。但是，65B 模型可以跟隨基本指令。我們將等待 Alpaca（不久）

模型大小比較

使用更大的 LLaMA 模型可以獲得多少收益？下表總結了不同類別任務的性能。它們是根據研究論文中提供的分數計算，假設是線性比例。LLaMA 模型的性能（標準化為 65B 為 100%）：

Average65%

Common sense reasoning92%

Natural Questions65%

Reading comprehension90%

TriviaQA76%

Quantitative reasoning27%

Code generation53%

Multitask language understanding56%

13B

Average76%

Common sense reasoning95%

Natural Questions80%

Reading comprehension91%

TriviaQA86%

Quantitative reasoning39%

Code generation69%

Multitask language understanding74%

33B

Average91%

Common sense reasoning99%

Natural Questions95%

Reading comprehension94%

TriviaQA96%

Quantitative reasoning72%

Code generation89%

Multitask language understanding91%

65B

Average100%

Common sense reasoning100%

Natural Questions100%

Reading comprehension100%

TriviaQA100%

Quantitative reasoning100%

Code generation100%

Multitask language understanding100%

使用更大的模型值得嗎？當從 7B 模型切換到 65B 模型時，你可以期望獲得大約 50％的通用性能提升。但這也取決于你使用模型的目的。對于常識推理和閱讀理解任務，你只會看到小幅的提升。對于代碼生成和技術閱讀任務，你將看到很大的提升。

小結

如果你使用足夠的數據對小模型進行訓練，它們可以表現良好。這為在 PC 上運行“本地 ChatGPT” 的可能性打開了大門。但是，LLaMA 基礎模型沒有被訓練來遵循指令。這將留待以后的開發。

總之，LLaMA 旨在成為進一步微調的基礎模型。它的優點包括：

小型

開源

表現良好（得益于廣泛的訓練）

Alpaca 模型

論文：

LLaMA: Open and Efficient Foundation Language Models[51]

Self-Instruct: Aligning Language Model with Self Generated Instructions[52]

Blog：Alpaca: A Strong, Replicable Instruction-Following Model[53]

GitHub: tatsu-lab/stanford_alpaca[54]

Alpaca 是一個經過微調的 LLaMA 模型，這意味著模型結構相同，但權重略有不同。它旨在解決 LLaMA 模型缺乏遵循指令能力的問題。它的行為類似于 ChatGPT，可以跟隨對話和指令。7B 和 13B 的 Alpaca 模型現已可用。

訓練

這個模型是被訓練用來像 ChatGPT 一樣遵循指示的。首先使用 OpenAI 的 GPT-3 生成訓練數據，然后使用 Self-Instruct 流程將其轉換為 52k 遵循指示的對話數據。因此，Alpaca 可以對 ChatGPT 等對話進行微調。

表現

作者中的部分人對它進行了一項盲評，評估 Alpaca 7B 和 GPT-3 （具體來說是經過指令訓練的 text-davinci-003 模型）的指令跟隨能力。評估結果表明兩者響應的排名大致相等。這是一個令人驚訝的結果，因為 Alpaca 只有 GPT-3 的 1/26 大小。

當然，這只是性能的一個狹窄方面。這并不意味著 Alpaca 在其他領域（如代碼生成和科學知識等）的表現與 GPT-3 相同，這些領域在研究中并未進行測試。

小結

Alpaca 是微調 LLaMA 模型的不錯的一個開始。它在性能方面將被類似的微調方法 Vicuna 超越。

Vicuna 模型

Blog：Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality[55]

GitHub：lm-sys/FastChat[56]

在線體驗：Chat with Open Large Language Models[57]

Vicuna 是通過微調 LLaMA 模型對從 ShareGPT.com[58] 收集的用戶共享對話進行訓練。它有兩種大小可供選擇：7B 和 13B。

訓練

該模型是由加州大學伯克利分校、卡內基梅隆大學、斯坦福大學、加州大學圣地亞哥分校和 MBZUAI 的學術團隊進行微調訓練的。

它使用 ShareGPT.com 上用戶分享的 70,000 個 ChatGPT 對話進行訓練的。訓練 7B 模型的成本僅為 140 美元，訓練 13B 模型的成本為 300 美元。

表現

根據 Blog 顯示輸出質量約為 ChatGPT（GPT-4）的 90％，使其成為可以在本地運行的最佳語言模型。

作者使用了一種有趣的方法來評估模型的表現：使用 GPT-4 作為評判標準。他們讓 GPT-4 提出一些具有挑戰性的問題，并讓 Vicuna 和其他最佳語言模型來回答。然后，他們要求 GPT-4 從不同的方面（例如：有用性和準確性）評估答案的質量。

以下是比較 LLaMA、Alpaca、Bard[59] 和 ChatGPT 的結果。在 GPT-4 的眼中，Vicuna 幾乎與 ChatGPT 一樣出色，比 LLaMA 和 Alpaca 優異許多。

小結

當前 Vicuna 模型是你可以在本地運行的最佳 LLaMA 模型之一。但如果未來幾周情況發生變化，你也不必感到驚訝。

Koala 模型

Blog：Koala: A Dialogue Model for Academic Research[60]

GitHub：young-geng/EasyLM[61]

發布日期：2023 年 4 月

Koala 是一個 LLaMA 7B 和 13B 模型，由加州大學伯克利分校的一個學術團隊使用公開可用的對話數據進行微調。

訓練

為了構建 Koala，團隊通過從 Web 和公共數據集中收集對話數據來篩選 Koala 的訓練集。其中一部分數據包括用戶在線發布的與大型語言模型（如ChatGPT）的對話。Koala 不是通過盡可能多地爬取 Web 數據來最大化數量，而是專注于收集小而高質量的數據集。

訓練數據包括來自多個數據集的過濾數據：

ChatGPT 蒸餾數據

ShareGPT：使用公共 API 收集了用戶在 ShareGPT 上共享的大約 60K 對話。為了保持數據質量，在用戶查詢級別進行了重復數據刪除，并刪除了所有非英語對話，留下大約 30K 個示例。

Human ChatGPT Comparison Corpus (HC3)：使用來自 HC3 英語數據集[62]的人類和 ChatGPT 響應，其中包含約 60K 人類答案和 27K ChatGPT 答案，用于約 24K 問題，從而產生總數約 87K 的問答示例。

開源數據

Open Instruction Generalist (OIG)：使用由 LAION 策劃的 Open Instruction Generalist[63] 數據集的手動選擇的子集。具體是 grade-school-math-instructions、poetry-to-songs 和 plot-screenplay-books-dialogue 數據集。這總共約有 30k 個例子。

Stanford Alpaca：使用 Alpaca 訓練數據集，該數據集包含大約 52K 個例子，是由 OpenAI 的 text-davinci-003 按照自我指導過程生成的。值得注意的是，HC3、OIG 和 Alpaca 數據集是單輪問答，而 ShareGPT 數據集是對話會話。

Anthropic HH：Anthropic HH 數據集[64]包含對模型輸出有害和有幫助性的人類評分。該數據集包含約 160K 個人工評定的示例，其中每個示例由兩個聊天機器人的響應組成，其中一個響應由人類優先選擇。該數據集為 Koala 模型提供了能力和額外的安全保護。

OpenAI WebGPT：OpenAI WebGPT 數據集[65]包括總共約 20K 個比較，每個例子包括一個問題、一對模型答案和元數據。這些答案由人類評分，并得到一個優先得分。

OpenAI Summarization：OpenAI 摘要數據集[66]包含約 93K 個示例，每個示例都包含人類對模型生成的摘要的反饋。人類評估人員從兩個選項中選擇了更好的摘要。

訓練了兩個模型：

Koala-Distill：只使用 ChatGPT 蒸餾數據

Koala-All：使用所有數據（包括 ChatGPT 蒸餾和開源數據）

小結

數據質量比數量更重要。使用僅 ChatGPT 數據進行微調的 Koala-Distll 的性能優于使用其他數據進行訓練的 Koala-All。在未來，尋找或生成高質量的數據來微調 LLaMA 模型是重要的。

GPT4-x-Alpaca 模型

HuggingFace：chavinlo/gpt4-x-alpaca[67]

發布日期：2023 年 4 月

GPT4-x-Alpaca 是一個 LLaMA 13B 模型，使用 GPT4 對話集合 GPTeacher[68] 進行了微調。關于它的訓練和表現的信息不多。以下是一些社區為評估該模型所做的努力：

AI Showdown: GPT-4-x-Alpaca vs. Vicuna, GPT-4 as the judge (test in comments)[69]

New model: gpt4-x-alpaca-13b-native-4bit-128g !![70]

WizardLM 模型

論文：WizardLM: Empowering Large Language Models to Follow Complex Instructions[71]

GitHub：nlpxucan/WizardLM[72]

發布日期：2023 年 4 月

WizardLM 是一個經過微調的 7B LLaMA 模型。它通過大量具有不同難度的指令跟隨對話進行微調。這個模型的新穎之處在于使用了 LLM 來自動生成訓練數據。

訓練

WizardLM 模型使用一種名為 Evol-Instruct[73]（是一種使用 LLM 代人類自主批生成各種難度等級和技術范圍的開放指令，以提高 LLM 能力的新方法）的新方法，通過 70k 個計算機生成的指令進行訓練，該方法生成具有不同難度級別的指令。

Evol-Instruct 使用以下五個操作來擴展提示：

添加約束

深化

具體化

增加推理步驟

復雜輸入

這些操作按順序應用于初始指令以使其更加復雜，回復由 LLM 生成。

表現

為了評估 Wizard，作者在 Wizard 和基線之間進行了盲配對比較（具體來說就是：招募 10 個受過良好教育的人在五個方面對 WizardLM 和其他模型的響應進行評估：相關性，知識水平，推理，計算和準確性進行了 1-5 的排名）。WizardLM 取得了明顯優于 Alpaca 和 Vicuna-7b 的結果。

在測試集的高難度部分（難度等級 >= 8）中，甚至表現出優于 ChatGPT 的表現，勝率比 ChatGPT 高 7.9％（42.9％對 35.0％）。這表明 Wizard 的方法可以顯著提高大型語言模型處理復雜指令的能力。

OpenAssistant 模型

官網：Open Assistant[74]

論文：OpenAssistant Conversations -- Democratizing Large Language Model Alignment[75]

GitHub：LAION-AI/Open-Assistant[76]

模型：OpenAssistant LLaMa 30B SFT 6[77]

視頻：OpenAssistant RELEASED! The world's best open-source Chat AI![78]

在線體驗：Large Language Model Chat API[79]

發布日期：2023 年 4 月

OpenAssistant 是一個開源項目，旨在開發免費提供給所有人使用的 AI 聊天機器人。訓練數據集 OpenAssistant Conversations 包含了超過 60 萬個涉及各種主題的交互，用于訓練各種模型。目前發布了經過指令調整的 LLaMA 13B 和 30B 模型，以及其他使用相同數據集訓練的模型。（了解更多《Open Assistant：開源聊天助手》）

Lit-LLaMA

Lightning-AI/lit-llama[80]：基于 nanoGPT（用于訓練/微調中型 GPT 的最簡單、最快的存儲庫）實現的 LLaMA 語言模型。支持 flash attention、Int8 和 GPTQ 4bit 量化、LoRA 和 LLaMA-Adapter 微調、預訓練。項目采用 Apache 2.0 開源許可證[81]。

Lit-LLaMA 認為人工智能應該完全開源并成為集體知識的一部分。但原始的 LLaMA 代碼采用 GPL 許可證[82]，這意味著使用它的任何項目也必須在 GPL 下發布。這“污染”了其他代碼，阻止了與生態系統的集成。Lit-LLaMA 永久性地解決了這個問題。

Dolly

Blog：Hello Dolly: Democratizing the magic of ChatGPT with open models[83]

GitHub：databrickslabs/dolly[84]

模型：

EleutherAI/gpt-j-6b[85]

databricks/dolly-v2-12b[86]：Dolly2.0 是第一個開源的指令跟隨型大型語言模型，通過在經過授權用于研究和商業用途的人工生成指令數據集上進行微調。

Dolly 是一款基于 EleutherAI[87] 開源 6 億參數模型修改而來的 LLM（Language Model），能夠表現出類似于 ChatGPT 的指令跟隨能力，并且能夠在生成文本、頭腦風暴和開放式問答等方面表現出與 ChatGPT 相似的定性能力。其工作原理是在 Alpaca 的數據支持下，對 EleutherAI 的開源模型 pythia-12b[88] 進行微調，以實現頭腦風暴和文本生成等指令跟隨能力。了解更多 Hello Dolly: Democratizing the magic of ChatGPT with open models[89]。

RedPajama

Blog：RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens[90]

數據集：togethercomputer/RedPajama-Data[91]

RedPajama 旨在創建一組領先的、完全開源模型的項目。GPT-4 等基礎模型推動了 AI 的快速改進。然而，最強大的模型是封閉的商業模型或僅部分開放。目前該項目第一步已完成：復制超過 1.2 萬億個標記的 LLaMA 訓練數據集。（了解更多《RedPajama 開源：1.2 萬億數據集的可商用語言模型！》）

ChatLLaMa

注意：此庫不包含 LLaMA 的權重；要訪問權重，需要申請 Meta 的表格。

ChatLLaMa[92] 可以讓你使用自己的數據和盡可能少的計算量有效地利用 LLM 的微調功能。其目的是通過抽象計算優化和收集大量數據所需的工作，讓開發人員高枕無憂。

StableLM

Blog：Stability AI Launches the First of its StableLM Suite of Language Models[93]

GitHub：stability-AI/stableLM[94]

模型：StableVicuna-13B[95]

體驗地址：StableLM-Tuned-Alpha-7b Chat[96]

2022 年，Stability AI 推出了 Stable Diffusion，這是一種革命性的圖像模型，代表了專有 AI 的透明、開放和可擴展的替代方案。隨著 StableLM 模型套件的推出，Stability AI 正在繼續使基礎 AI 技術對所有人可用。StableLM 模型可以生成文本和代碼，并為一系列下游應用提供支持。它們展示了小而高效的模型如何在適當的訓練下提供高性能。（了解更多《StableLM 開源: Stability AI 發布可商用語言模型！》）

LangChain

官網：Langchain[97]

GitHub：wchase17/langchain[98]

大型語言模型 (LLM) 正在成為一種變革性技術，LangChain 使開發人員能夠構建他們以前無法構建的應用程序。然而，單獨使用這些 LLM 往往不足以創建一個真正強大的應用程序——當你可以將它們與其他計算或知識來源相結合時，真正的力量就來了。

本機運行

運行 LLaMA

在軟件工程方面的發展同樣令人矚目。目前，在個人電腦上運行 LLaMA 模型有兩種方式：

文本終端

llama.cpp[99]：主要目標是在 MacBook 上使用 4 位整數量化運行 LLaMA 模型

圖形界面

nat/openplayground[100]：LLM 游樂場，支持來自 OpenAI、Anthropic、Cohere、Forefront、HuggingFace、Aleph Alpha 和 llama.cpp 的任何模型。

oobabooga/text-generation-webui[101]：用于運行 LLaMA、llama.cpp、GPT-J、Pythia、OPT 和 GALACTICA 等大型語言模型的 gradio web UI。

nsarrazin/serge[102]：基于 llama.cpp 的聊天界面，用于運行 Alpaca 模型。完全自托管，不需要 API 密鑰。適合 4GB RAM 并在 CPU 上運行。

llama.cpp

llama.cpp 是用 C++ 編寫的，其目標是在 Macbook 上運行 LLaMA 模型。它針對 Apple Silicon M1/M2[103] 進行了優化。

支持 4 位整數量化，以減少 LLaMA 模型所需的資源。量化模型可以減少存儲和 RAM 使用量，但會略微降低質量。一個 7B 模型最初需要 13GB 的磁盤空間和 RAM 才能加載。經過 4 位量化后，只需要約 4GB。

然而，它只支持在文本終端中使用。你也可以使用 nat/openplayground 或 oobabooga/text-generation-webui 作為 llama.cpp 的 GUI。

4 位整數量化（4-bit integer quantization）:

是一種將神經網絡參數從浮點數轉換為整數的技術，旨在減少模型存儲和內存占用的大小，以便在移動設備等資源受限的環境中使用。

在傳統的神經網絡中，每個參數都是一個浮點數，通常需要 4 個字節存儲。但是，在 4-bit 整數量化中，每個參數被近似為一個整數，只需要 1 個字節存儲。雖然這樣會犧牲一些模型精度，但由于整數計算通常比浮點數計算快，因此它可以加速神經網絡的計算速度。

4-bit 整數量化通常是在訓練后應用的，使用一些技術來最小化精度損失，例如權重裁剪和量化感知訓練。

nat/openplayground

使用來自 OpenAI、Anthropic、Cohere、Forefront、HuggingFace、Aleph Alpha 和 llama.cpp 的任何模型

完整的 playground UI，包括歷史記錄、參數調整、鍵盤快捷鍵和 logprops

使用相同的提示并排比較模型，單獨調整模型參數，然后使用不同的參數重試

自動檢測 HuggingFace 緩存中的本地模型，并允許你安裝新模型

在手機上運行

...

oobabooga/text-generation-webui

用于在模型之間切換的下拉菜單

類似于 OpenAI 游樂場的筆記本模式

對話和角色扮演的聊天模式

指令模式兼容 Alpaca、Vicuna、Open Assistant、Dolly、Koala 和 ChatGLM 格式

顯示優化：HTML，Markdown，LaTeX 等

...

nsarrazin/serge

你的自助式私人助理。沒有遠程 API，沒有數據收集，沒有廣告。

WebLLM

WebLLM[104] 將大型語言模型和聊天引入網絡瀏覽器。一切都在瀏覽器內運行，無需服務器支持，并使用 WebGPU 加速。這開辟了許多有趣的機會，可以為每個人構建 AI 助手，并在享受 GPU 加速的同時實現隱私。

Web Stable Diffusion

Web Stable Diffusion[105] 為網絡瀏覽器帶來 Stable Diffusion 模型。一切都在瀏覽器內運行，無需服務器支持。據項目作者稱，這是世界上第一個完全在瀏覽器上運行的 Stable Diffusion。

圖像生態

Stable Diffusion

論文：High-Resolution Image Synthesis with Latent Diffusion Models[106]

GitHub：Latent Diffusion Models[107]

可視化界面：AUTOMATIC1111/stable-diffusion-webui[108]

Stable Diffusion[109]（穩定擴散）是一個潛在的文本到圖像擴散模型。Stability AI[110] 和 Runway[111] 的合作，Stable Diffusion 得以實現。得益于 Stability AI 的慷慨計算機捐贈和 LAION[112] 的支持，Stable Diffusion 在 LAION-5B[113] 數據庫的一個子集上訓練了一個 512x512 圖像的潛在擴散模型。類似于 Google 的 Imagen[114]，該模型使用一個凍結的 CLIP ViT-L/14 文本編碼器來對模型進行文本提示的調節。該模型具有 860M UNet 和 123M 文本編碼器，相對較輕，可以在至少擁有 10GB VRAM 的 GPU 上運行。（了解更多《Stable Diffusion 入門》）

Segment Anything

論文：Segment Anything[115]

Blog：Introducing Segment Anything: Working toward the first foundation model for image segmentation[116]

GitHub：facebookresearch/segment-anything[117]

官網：Segment Anything (Research by Meta AI)[118]

數據集：Segment Anything Dataset[119]

“Segment Anything Model”（SAM）可以從點或框等輸入提示生成高質量的對象蒙版，可用于為圖像中的所有對象生成蒙版。它已經在包含 1.1 億個蒙版的 1100 萬個圖像數據集上進行了訓練，并在各種分割任務上具有強大的零樣本性能。

References[1]

Image Creator: https://www.bing.com/images/create[2]

GPT-3: https://github.com/openai/gpt-3[3]

ChatGPT 發布: https:///blog/chatgpt[4]

Blake Lemoine Says Google's LaMDA AI Faces 'Bigotry': https://www./story/blake-lemoine-google-lamda-ai-bigotry[5]

LLM BLOOM: https://bigscience./blog/bloom[6]

ChatGPT Plus: https:///blog/chatgpt-plus[7]

ChatGPT 和 Whisper API: https:///blog/introducing-chatgpt-and-whisper-apis[8]

ChatGPT 插件: https:///blog/chatgpt-plugins[9]

GPT-4: https:///product/gpt-4[10]

BLOOM: https:///bigscience/bloom[11]

GitHub Copilot X: https://github.com/features/preview/copilot-x[12]

Google Bard: https://bard.google.com[13]

Adobe Firefly: https://firefly.adobe.com[14]

DeepSpeed: https://github.com/microsoft/DeepSpeed[15]

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models: https:///abs/2304.10592[16]

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training: https:///abs/2210.08773[17]

Flamingo: a Visual Language Model for Few-Shot Learning: https:///abs/2204.14198[18]

Vision-CAIR/MiniGPT-4: https://github.com/Vision-CAIR/MiniGPT-4[19]

Vision-CAIR/MiniGPT-4: https:///Vision-CAIR/MiniGPT-4[20]

Vision-CAIR/cc_sbu_align: https:///datasets/Vision-CAIR/cc_sbu_align[21]

Minigpt-4: https://minigpt-4.[22]

Q-Former: https://github.com/ViTAE-Transformer/QFormer[23]

minGPT: https://github.com/karpathy/minGPT[24]

GPT: https://github.com/openai/gpt-2[25]

mingpt/model.py: https://github.com/karpathy/minGPT/blob/master/mingpt/model.py[26]

Transformer: https:///abs/1706.03762[27]

nanoGPT: https://github.com/karpathy/nanoGPT[28]

GPT4Free: https://github.com/xtekky/gpt4free[29]

Auto-GPT: https://github.com/Significant-Gravitas/Auto-GPT[30]

AgentGPT: https://github.com/reworkd/AgentGPT[31]

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head: https:///abs/2304.12995[32]

AIGC-Audio/AudioGPT: https://github.com/AIGC-Audio/AudioGPT[33]

AudioGPT Demo: https:///spaces/AIGC-Audio/AudioGPT[34]

DocsGPT: https://github.com/arc53/DocsGPT[35]

acheong08/ChatGPT: https://github.com/acheong08/ChatGPT[36]

acheong08/EdgeGPT: https://github.com/acheong08/EdgeGPT[37]

A brief history of LLaMA models: https:///llama-models[38]

LLaMA: Open and Efficient Foundation Language Models: https:///abs/2302.13971[39]

Introducing LLaMA: A foundational, 65-billion-parameter large language model: https://ai./blog/large-language-model-llama-meta-ai[40]

facebookresearch/LLaMA: https://github.com/facebookresearch/llama[41]

Google 表單申請: https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform[42]

Facebook LLAMA is being openly distributed via torrents: https://news./item?id=35007978[43]

qBittorrent: https://www.[44]

uTorrent: https://www.[45]

NVIDIA 3090: https://www./en-us/geforce/graphics-cards/30-series/rtx-3090-3090ti[46]

Transformer: A Novel Neural Network Architecture for Language Understanding: https://ai./2017/08/transformer-novel-neural-network.html[47]

CommonCrawl: https://[48]

C4: https:///datasets/c4[49]

SentencePiece: https://github.com/google/sentencepiece[50]

Google BigQuery: https://cloud.google.com/bigquery[51]

LLaMA: Open and Efficient Foundation Language Models: https:///abs/2302.13971v1[52]

Self-Instruct: Aligning Language Model with Self Generated Instructions: https:///abs/2212.10560[53]

Alpaca: A Strong, Replicable Instruction-Following Model: https://crfm./2023/03/13/alpaca.html[54]

tatsu-lab/stanford_alpaca: https://github.com/tatsu-lab/stanford_alpaca[55]

Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality:* https://vicuna.[56]

lm-sys/FastChat: https://github.com/lm-sys/FastChat[57]

Chat with Open Large Language Models: https://chat.[58]

ShareGPT.com: https://[59]

Bard: https://blog.google/technology/ai/bard-google-ai-search-updates[60]

Koala: A Dialogue Model for Academic Research: https://bair./blog/2023/04/03/koala[61]

young-geng/EasyLM: https://github.com/young-geng/EasyLM[62]

HC3 英語數據集: (https:///abs/2301.07597)[63]

Open Instruction Generalist: https:///blog/oig-dataset[64]

Anthropic HH 數據集: https:///datasets/Anthropic/hh-rlhf[65]

OpenAI WebGPT 數據集: https:///datasets/openai/webgpt_comparisons[66]

OpenAI 摘要數據集: https:///datasets/openai/summarize_from_feedback[67]

chavinlo/gpt4-x-alpaca: https:///chavinlo/gpt4-x-alpaca[68]

GPTeacher: https://github.com/teknium1/GPTeacher[69]

AI Showdown: GPT-4-x-Alpaca vs. Vicuna, GPT-4 as the judge (test in comments): https://www./r/LocalLLaMA/comments/12lksqo/ai_showdown_gpt4xalpaca_vs_vicuna_gpt4_as_the[70]

New model: gpt4-x-alpaca-13b-native-4bit-128g !!: https://github.com/oobabooga/text-generation-webui/discussions/727[71]

WizardLM: Empowering Large Language Models to Follow Complex Instructions: https:///abs/2304.12244[72]

nlpxucan/WizardLM: https://github.com/nlpxucan/WizardLM[73]

Evol-Instruct: https://github.com/nlpxucan/evol-instruct[74]

Open Assistant: https://[75]

OpenAssistant Conversations -- Democratizing Large Language Model Alignment: https:///abs/2304.07327[76]

LAION-AI/Open-Assistant: https://github.com/LAION-AI/Open-Assistant[77]

OpenAssistant LLaMa 30B SFT 6: https:///OpenAssistant/oasst-sft-6-llama-30b-xor[78]

OpenAssistant RELEASED! The world's best open-source Chat AI!: https:///ddG2fM9i4Kk[79]

Large Language Model Chat API: https:///spaces/olivierdehaene/chat-llm-streaming[80]

Lightning-AI/lit-llama: https://github.com/Lightning-AI/lit-llama[81]

Apache 2.0 開源許可證: https://www./licenses/LICENSE-2.0[82]

GPL 許可證: https://www./licenses/gpl-3.0.html[83]

Hello Dolly: Democratizing the magic of ChatGPT with open models: https://www./blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html[84]

databrickslabs/dolly: https://github.com/databrickslabs/dolly[85]

EleutherAI/gpt-j-6b: https:///EleutherAI/gpt-j-6b[86]

databricks/dolly-v2-12b: https:///databricks/dolly-v2-12b[87]

EleutherAI: https://www.[88]

pythia-12b: https:///EleutherAI/pythia-12b[89]

Hello Dolly: Democratizing the magic of ChatGPT with open models: https://www./blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html[90]

RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens: https://www./blog/redpajama[91]

togethercomputer/RedPajama-Data: https://github.com/togethercomputer/RedPajama-Data[92]

ChatLLaMa: https://github.com/nebuly-ai/nebuly/tree/main/optimization/chatllama[93]

Stability AI Launches the First of its StableLM Suite of Language Models: https:///blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models[94]

stability-AI/stableLM: https://github.com/stability-AI/stableLM[95]

StableVicuna-13B: https:///lmsys/vicuna-13b-delta-v1.1[96]

StableLM-Tuned-Alpha-7b Chat: https:///spaces/stabilityai/stablelm-tuned-alpha-chat[97]

Langchain: https://blog.v[98]

wchase17/langchain: https://github.com/hwchase17/langchain[99]

llama.cpp: https://github.com/ggerganov/llama.cpp[100]

nat/openplayground: https://github.com/nat/openplayground[101]

oobabooga/text-generation-webui: https://github.com/oobabooga/text-generation-webui[102]

nsarrazin/serge: https://github.com/nsarrazin/serge[103]

Apple Silicon M1/M2: https://www.apple.com/newsroom/2022/06/apple-unveils-m2-with-breakthrough-performance-and-capabilities[104]

WebLLM: https://github.com/mlc-ai/web-llm[105]

Web Stable Diffusion: https://github.com/mlc-ai/web-stable-diffusion[106]

High-Resolution Image Synthesis with Latent Diffusion Models: https:///abs/2112.10752[107]

Latent Diffusion Models: https://github.com/CompVis/latent-diffusion[108]

AUTOMATIC1111/stable-diffusion-webui: https://github.com/AUTOMATIC1111/stable-diffusion-webui[109]

Stable Diffusion: https://github.com/CompVis/stable-diffusion[110]

Stability AI: https://[111]

Runway: https://[112]

LAION: https://[113]

LAION-5B: https:///blog/laion-5b[114]

Imagen: https:///abs/2205.11487[115]

Segment Anything: https:///abs/2304.02643[116]

Introducing Segment Anything: Working toward the first foundation model for image segmentation: https://ai./blog/segment-anything-foundation-model-image-segmentation[117]

facebookresearch/segment-anything: https://github.com/facebookresearch/segment-anything[118]

Segment Anything (Research by Meta AI): https://[119]

Segment Anything Dataset: https:///dataset/index.html