淺談AI Agent——大模型時代重要落地方向

taotao_2016 2023-12-30

展開全文

本文封面是《我們從何處來？我們是誰？我們向何處去？》（Where Do We Come From？ What Are We？ Where Are We Going？）是法國畫家保羅·高更于1897年創作的布面油畫，現藏于美國波士頓美術館。

1. 智能涌現- Where Do We Come From？

過去基于深度學習框架可讓agent（人工智能體））學到技能，但agent本身并沒有真正理解問題和技能，如AlphaGo，只能用于特定領域。

現在有人要求ChatGPT扮演Linux終端來運行代碼時，發現ChatGPT真的可以搞定這件事。是人們模型的訓練階段教了ChatGPT了么? 并沒有，它是根據預訓練的結果預測了下一個單詞，相當于無師自通。

2. 發展現狀- What Are We？

2.1 所有應用都值得被大模型重構一遍[1]

以自動駕駛不同階段，來對比AI發展階段。我們知道，至少要L4階段，自動駕駛才會被真正批準上路，而目前絕大多數軟件產品沒有任何顯性的AI輔助，都只是處于L1甚至L0初級階段的產品。但是大模型成功地壓縮了人類對于整個世界的認知，讓我們看到了實現通用人工智能的路徑。

等級	Name	名稱	自動化程度	含義	示例	應用場景
L1	Tool	工具	無	人類完成所有工作,沒有任何顯性的AI輔助	目前絕大多數軟件產品
L2	Chatbot	客服	少量自動化	人類完成絕大部分工作,類似向AI詢問意見,了解信息, AI提供信息和建議但不直接處理工作	初代ChatGPT和Chatbot	智能客服、虛擬導游等
L3	Copilot	助理	部分自動化	人類和AI進行協作,工作量相當。 Al根據人類prompt完成工作初稿, 人類進行目標設定,修改調整,最后確認	Copilot、Jasper	代碼補全輔助編程等
L4	Agent	自動化代理	條件自動化	AI完成絕大部分工作, 人類負責設定目標、提供資源和監督結果, AI完成任務拆分,工具選擇,進度控制, 實現目標后自主結束工作	AutoGPT
L5	Species	智能體	完全自動化	完全無需人類監督, AI自主拆解目標,尋找資源,選擇并使用工具,完成全部工作人類只需給出目標	類似馮諾依曼機器人
圖表1 AI發展階段對比自動駕駛不同階段圖表2 中國自動駕駛發展情況

2.2 人類與AI協同的三種模式[2]

圖表3 人類與AI協同的三種模式

2.3 生成式AI是近十年來產生影響最為廣泛的技術[3]

Gartner 發布了題為“Hype Cycle for Artificial Intelligence, 2023”的報告，公布了 2023 年 AI 技術成熟度曲線，對 AI 相關技術進行了系統的分析及發展預測。本次報告中，Gartner 對生成式 AI 做出了極高的評價，認為生成式AI 是近十年來產生影響最為廣泛的技術，沒有之一。
其中，「生成式 AI」和「基礎模型」正處于期望膨脹期的巔峰。

高德納技術成熟度曲線是個通用模型，是個可以套用很多技術的萬能模型，具有學習價值。該模型認為一項技術的發展可以分為5個階段，并且對每個階段的邊界和特征進行了明確的定義。

圖表4 2023 AI 技術成熟度曲線

3. 未來前瞻- Where Are We Going？

大模型改變人工智能背后，底層的IT技術棧也發生了根本變化，即從芯片層（CPU為主）、操作系統層、應用層的三層架構，發展成為了四層架構：芯片層（GPU為主）+框架層+模型層+應用層。

3.1 何為AI-Agent

大模型應用的盡頭是AI Agent，AI Agent是大模型重要落地方向[6]

根據前文等級區分，Level 4級別的Agent實現的是全自動化的決策、運行和反饋，它呈現出的更多是一種超級個體更多是一種“擬人化”的形式。它可被定義為“分身”、“員工”和任意“個體”。

OpenAI的一篇博文中， Lilian認為，在基于LLM的自動agent體系里, LLM就是作為agent的大腦，其他幾個能力作為補充：計劃、記憶、工具使用，而這三個模塊最終驅動智能體的決策和行動。

AI Agent 智能體= LLM +規劃能力+記憶能力+工具使用

·規劃能力

?子目標與拆解: Agent大腦把大的任務拆解為更小的，可管理的子任務，這對有效的、可控的處理好大的復雜的任務效果很好.

?反省和改良: Agent能基于過去的動作做自我批評和自我反省，從過去的問題中學習從而改良未來的動作，從而能夠改善最終的結果.

·記憶能力

?短期記憶: 我會把所有基于context的學習能力 (詳細請看 Prompt Engineering) ，其實就是prompt內的學習能力作為短期記憶.

?長期記憶: Agent能夠保留和無限召回的歷史信息能力，這通常通過外部的向量數據庫和快速取數能力組合實現.

·工具使用

?Agent能學習到在模型內部知識不夠時（比如在pre-train時不存在，且之后沒法改變的模型weights）去調用外部API，比如獲取實時的信息，處理代碼的能力，訪問專有的信息知識庫等等.

3.1.3 Al Agent 智能體總體架構剖析

圖表5 大模型驅動的AI Agent的基本框架

圖表6 OpenAI Safety團隊負責人

3.1.3 規劃能力

·CoT（Continual Training）是一種改進的提示策略，它強調在訓練過程中持續提供新的數據和信息，以幫助智能體不斷學習和改進。這種策略對于提高AI Agent的規劃能力非常有幫助，因為它可以提供更多的訓練數據和更豐富的經驗，幫助智能體更好地理解和應對各種復雜的情況和任務。

3.1.1 記憶能力

簡單來說，檢索模型擅長'找'信息，生成模型擅長'創造'內容

·RAG（檢索增強生成，Retrieval-Augmented Generation）

圖7 RAG的執行流程圖

·向量數據庫(Vector Database)：向量數據庫是指專門用于存儲和管理向量的數據庫。在AI Agent的規劃過程中，大量的數據需要以向量的形式進行存儲和檢索。向量數據庫可以提供高效、快速的向量存儲和檢索功能，為AI Agent的規劃和決策提供強大的支持。同時，向量數據庫還可以支持各種數據分析和挖掘功能，幫助智能體更好地學習和改進。

·Embedding模型的應用：Embedding 是指將數據或特征映射到一個低維向量空間中的過程。LangChain可以利用Embedding模型將文本轉換為向量，然后將其存儲在向量數據庫中。這樣，LangChain 可以根據文本的向量表示進行相似性比較和搜索，從而實現對文本的高效處理。

·存-> 向量數據庫的核心思想是將文本轉換成向量（Embedding）,然后將向量存儲在數據庫中。

·取-> 將用戶輸入的問題轉成向量，然后在數據庫中檢索最相似的向量，以及向量對應的文本（記憶），返回給LLM，生成回答。

圖表8 基于LangChain下的RAG交互過程

3.1.1 工具使用

巧婦難為無米之炊，僅靠 LLM 自身能做的事情還是比較有限，比如：LLM可以幫忙寫代碼，但是無法執行代碼，因此要讓LLM能做更多事情，就需要借它點工具。一些工具類型：

·ChatGPT Plugins

·OpenAI API function calling

·Code Interpreter

·HuggingGPT

3.2 大模型增強vs. 大模型原生

3.2.3 LLM-Empowered

指將LLM技術應用于現有系統或工具以提升其功能和性能；
這種方法通常涉及到對現有系統或工具進行改進和優化，以適應大型語言模型的應用。LLM-Empowered的優勢在于它可以通過利用大型語言模型的能力來提高現有系統的性能和效率。

3.2.3 LLM-Native

指從設計之初就將LLM作為核心功能考慮的系統或應用，是完全建立在大模型技術特點上的全新應用形態;
這種方法需要對系統或工具進行重新設計和開發，以便能夠充分利用大型語言模型的能力。LLM-Native的優勢在于它可以更好地利用大型語言模型的能力，并且可以更好地適應特定的應用場景和需求。

3.3 GPTs vs. AI-Agent

Chat (GPTs)向左, AI-Agent 向右

GPTs是AI-Agent初級形態

3.3.1 公開的GPTs

·公開的

·GPTs類比appstore的應用app

·GPTs store生態未來將造就大量淘金者

·GPTs受眾是公域的c端用戶

·GPTs主要目標，面向業務人員, 最終目的替代兼職人員+提升效率

·技術棧有一定限制：受制于OPEN和GPT4

·技術和安全挑戰：幾句話Prompt就能套走GPTs的數據庫

·未來自由組織形態: 人+GPTs

3.3.2 定制AI-Agent

·定制的

·AI Agent是copilot的下一代產物

·Agent是大模型時代的落地代言人

·Agent彌補大模型應用最后一公里

·Agent主要目標，面向開發人員，最終目的是替代人

·技術和安全挑戰：企業數據不可能交付給別人的大模型

·未來嚴肅組織形態: 人+AI Agent

3.4 單智能體vs. 多智能體

AI-Agent大致會分兩個方向: Agents Systems(單智能體)和Multi-Agents(多智能體)

在多智能體系統中，多個智能體需要協同工作以實現共同的目標。多智能體協同規劃方法需要考慮多個智能體之間的交互和合作，以制定最佳的行動方案。

3.4.3 多智能體：未來200人的公司只需5個人就能運作

未來公司架構是不限于工程師，項目經理；包括CEO、COO、CFO、CTO在內都能被AI Agent所替代。
軟件公司或者變成這樣的架構運作，或者迫于成本壓力被這樣架構的公司所擊敗。
畢竟未來如果讓軟件工程師去開發，至少需要幾萬塊錢的人工費，時間兩周起步。但使用Agent開發，價格只需要幾元到幾十元，最快幾分鐘就能跑通一個應用。

下圖，每一個模塊就是一個AI Agent。

圖表7 未來內容生產的公司架構

4. 不必悲觀

4.1 大模型存在以下問題

·幻覺：生成看似正確實際上非常錯誤的內容誤導用戶；

如今沒有一種模型不會產生幻覺, 即大模型分不清事實和虛構，捏造和相信一些不存在的事實。
基本上，在與模型對答6次以上就會發生. 所以想要ChatBot產生機器幻覺, 可能需要重開客戶端.
這對于工業控制場景來說是致命的。
但是通過大模型來輸出代碼, 再由代碼來控制可能是一種思路, 畢竟代碼是

·偏見：受到有問題的訓練數據影響，可能會生成偏見、歧視性或不當的言論；

·黑箱：生成決策過程不透明，難以解釋；

·邏輯：本質上是概率預測，還不能非常準確處理邏輯問題；

·過時：特定數據集的預訓練，使其難以理解和回應在數據集創建后出現的新概念；

·成本：訓練大模型需要消耗極其巨大的計算資源，一般機構無法負擔這樣的花費；

4.2 人類與智能體的博弈競爭關系

在未來工作的可能危機應該是人類與多智能體的博弈。

為什么要與多智能體博弈呢?這與智能體的前沿研究有關,因為他們試圖模擬人類的行為，甚至替代人類。

1.第一個競爭力將取決于你對模型性能、選擇適當模型和工具以及執行步驟的理解；

AI時代的職場競爭力: 模型、策略與流程；更少的流程意味著更少的算力成本。

2.第二個核心競爭力就是智能體的博弈中找到最好的合作方式，人類的自我反思能力有限，在這種多智能體的博弈中，它們將快速找到更好的解決方案

3.大模型的工作催生了新的工作需求

關閉了一扇門，打開一扇窗

除了等待基座模型自身迭代之外，借助外部力量（向量存儲、檢索、代碼等）是重要方法，完整的AGENT框架應該具備這些能力。這又誕生了新的業務需求，如提示詞工程、向量數據庫工程等

4.4 程序員與LLM 優劣勢對比

按照目前觀察，人類更擅長抽象層次高的任務，而LLM擅長顆粒度小，確定性強的任務。

圖表8 程序員與 LLM 優劣勢對比

按照目前觀察，橙色部分是LLM可以部分替代，灰色部分將在不久將來逐步被LLM所替代。

圖表9 程序員與 LLM 優劣勢對比

4.5 LLM來做工業控制的思路之提示詞工程[5]

LLM依然需要采集端和控制端實現對環境的理解和對系統的控制。

·獲取系統的狀態

·將狀態（數值）轉為自然語言便于LLM理解

·獲取歷史狀態

·對狀態描述進行embedding，或者向量表示用于檢索或聚類

·通過KNN檢索相似狀態的一些樣本

·通過聚類找出一些靠近不同類的“具有代表性”的樣本

·結合前面各種信息得到最終的prompt，喂給LLM得到輸出，然后作用到被控系統

圖表10 LLM來做工業控制的思路

5. 相關鏈接

1.《大模型改變世界》
—— 2023中關村論壇演講，李彥宏，2023年05月26日

2.《LLM Powered Autonomous Agents》《LLM驅動的自主代理》
—— OpenAI負責安全領域的科學家，Lilian Weng，2023年6月23日

3.《2023 AI 技術成熟度曲線》
—— 全球著名咨詢調查機構，Gartner，2023年7月

4.《AI is about to completely change how you use computers》
—— 蓋茨個人網站，比爾·蓋茨，2023年11月9日

5.《PRE-TRAINED LARGE LANGUAGE MODELS FOR INDUSTRIAL CONTROL》《工業控制中預先訓練的大型語言模型》
—— 微軟亞洲研究院，

6.“如今AI智能體才是未來最前沿的方向”“相比大模型訓練，OpenAI內部目前更關注Agent領域”
—— OpenAI科學家Karpathy

7.《多智能體博弈、學習與控制》
—— 自動化學報，王龍，黃鋒，北京大學人工智能研究院，2023年3月

8.《純干貨全面解讀AI框架RAG》
——

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。