AI Agent加速落地，核心方向在哪里？

學習海洋626 2024-11-18

展開全文

近期，AI Agent概念持續發酵，海內外頭部公司正在陸續發布相關的應用產品，AI Agent有望加速落地，那么AI Agent究竟是什么，和我們認知的AI大模型有何異同，目前發展階段以及未來發展方向在哪里呢？

整體來看，AI Agent沒有非常明確的定義，直譯是AI代理人，也可譯為AI智能體，不同的行業參與者對其有不同的理解，例如OpenAI將其定義為“以大語言模型為大腦驅動，具備自主理解、感知、規劃、記憶和使用工具的能力，能夠自動化執行完成復雜任務的系統。”

這個定義有幾個重點要素：

一是AI Agent目前是以大語言模型為大腦驅動系統，也就是說，目前AI智能體是建立在AI大模型基礎上落地的應用，大模型是AI Agent實現的前提和基礎。

二是AI智能體需要具備自主的理解、感知、規劃、記憶以及使用工具的能力，能自動執行完成復雜的任務，這也是AI智能體和目前市場主流的AI大模型核心的區別之一。

目前我們使用的各類大語言模型主要還是以大數據喂養訓練后提供歸納匯總，或決策能力為主，大模型可以理解，感知，甚至一定程度的規劃，但在記憶和使用工具等能力方面比較欠缺，在給出相應建議后，執行方面仍需要人工手動操作，決策沒有落地執行的能力。

例如，通過目前的AI大模型確實可以進行旅游路線的規劃，或者酒店機票的查詢等操作，但查完之后一般還是需要手動去預定購買，進行決策落地，也就是說原先的大模型并沒有“使用工具”和“自主執行”的能力，無法切換到其余應用進行決策的閉環。

而AI Agent具備這些核心能力，可以在形成決策后主動去執行，大多數情況下，給它一個最終想要達成的目標，它能直接交付結果，人工的操作過程會明顯減少。

例如，他可以在規劃完旅游路線后，根據事先輸入的預算、偏好、時間等信息進行行程的規劃以及落地，包括選擇最合適的酒店并預定、門票預定、甚至接送機預定等等，可以最大程度的節省人工去查詢操作預定的過程。

同時，AI智能體在遇到問題的時候，還會自主進行詢問，或者自行尋求解決方法嘗試解決，還能基于結果反饋進一步優化，例如在預定后人工更改的形成而記錄使用者的偏好，而目前的AI大模型并沒有主動詢問等方面的能力。

因此，AI Agent對比AI大模型來看，更接近人的行為過程，是更靠近AGI（通用人工智能）的AI應用，AI Agent與LLM可以形象地比作生物體與其大腦，AI Agent有手有腳，可以自己干活自己執行，而LLM是它的大腦，只負責規劃和計算。

對比普通的AI大模型（AI copilot）來說，AI Agent的技術優勢在于，獨立思考（能根據給定任務目標和約束條件，進行規劃和拆解，形成工作流）、自主執行（能調取各類組件和工具，實行任務目標）、持續迭代（自動記錄任務目標、工作流和結果，基于結果反饋，優化后續的工作流程）三方面的核心能力。

圖源：愛分析報告

因此，整體來看，Agent是一種能力，也是AI重構人機交互方式實現的工具，這種智能體的能力既可以通過AI重構硬件來實現，也可以通過AI改造軟件來體現（軟件的自動化執行）。

在底層大模型的基礎上，通過大模型+規劃能力+記憶+工具的路徑，可以逐步進化為AI agent。當前對AI Agent整體框架的設計基本上可以分為感知、定義、記憶、規劃、行動五類模塊，不同的團隊對不同的模塊有不同的技術框架。

其中，感知模塊主要處理各類輸入信息，解決智能體與環境交互的問題；定義模塊主要包含Agent的屬性、目標等信息；記憶模塊包括短期記憶及長期記憶，用于面對復雜任務時提供歷史策略等；規劃模塊包括任務的分解、反思、推理推斷、策略制定等，是Agent的大腦；行動模塊包括以文字、具身行動、工具指令等多種形式輸出結果。

圖源：華泰證券

目前來看，AI Agent所處的階段大致屬于概念轉向應用落地的階段，但隨著大模型競爭加快、政策支持、終端應用快速開發等因素驅動下，應用層面的AI Agent推進速度正在加快。

目前智能體大致可以分為六類，可作用在不同的應用領域，目前關注度較高的自動駕駛技術、智能電網控制、能源管理等都能被垂類智能體覆蓋。

應用端比較成熟的下游場景包括能源、金融、政務等領域，這些領域在AI或IT領域的資本開支能力相對更高，而對大部分領域來說，由于智能體之間的交互過程可能出現錯誤循環且輸出結果不一定符合需求，tokens成本遠高于普通的LLMs，商業化仍存在成本方面的問題。

圖源：華泰證券

目前，概念比較火熱的短期催化因素是不斷是新的AI Agent產品落地，產品性能對比AI大模型有明顯的加速提升，且不論是B端還是C端，商業化落地的預期明顯增強。

就近期來看，比較重要的兩個AI Agent模型分別是Anthropic的Claude 3.5 Haiku和升級版Sonnet，以及國內智譜的AutoGLM。

10月23日，Anthropic推出了全新的Claude 3.5 Haiku和升級版Sonnet，升級后的Sonnet在邏輯、知識、代碼、數學、視覺、工具使用等幾乎全方面都超過了目前的最優模型GPT-4o和Gemini 1.5。

圖源：中信建投

同時，Sonnet帶來了全新的AI交互體驗，它可以像人類一樣操作電腦，例如可以理解多種人類的復雜任務，包括行程規劃、分析數據、編寫代碼，還可以根據任務內容，直接瀏覽電腦桌面上的文件，理解文件內容，操作瀏覽器查詢，下載安裝包，編寫程序，制作表格等。

當出現bug時，Claude還會嘗試不同的解決辦法，熟練的使用電腦上的不同工具，不過目前Claude還有許多不足，如任務成功率有待提高，操作也主要在PC瀏覽器，無法對Office軟件、微信、Wind等應用進行操作。

相比Claude 3.5專注于電腦端，智譜推出的AutoGLM是專注于手機端的AI智能體，其具備語言與視覺理解能力，能夠理解用戶的意圖，并能自主完成一系列復雜的手機操作，而且AutoGLM主要支持國內智能手機的各項操作，更適配國內的需求。

原理上來看，AutoGLM智能體首先會將用戶語音指令轉為文字并將任務進行拆解，然后對當前頁面截屏，基于OCR和頁面解析器理解當前頁面布局、結構以及各組件屬性等信息，并確定當前窗口所處位置及各組件坐標。

而后大模型會向手機輸出子任務工具、動作及上下文等指令，使手機完成對應操作，之后繼續進行截屏，直至任務完成或用戶取消任務，形成閉環。

圖源：國泰君安證券

在性能對比上，AutoGLM在Phone Use和Web Browser Use上均表現出了更強的性能。AutoGLM可以根據用戶指令，自動完成朋友圈評論&點贊、微信搶紅包/回復、外賣軟件下單、訂車票等個性化操作。

圖源：中信建投

目前，AutoGLM支持基于安卓系統架構的手機，通過結合Android intent可在沒有第三方App授權的情況下打開相應App的基本頁面及功能，并完成模擬點擊、活動等操作。

隱私保護方面，AutoGLM必須先向用戶請求無障礙服務權限，才能獲得屏幕信息并完成常用操作的模擬執行，對授權范圍外的操作，需再次提示，經用戶點擊同意后才可讀取相應數據并執行操作，且每次關閉應用后再次啟動也需重新申請無障礙權限。

AutoGLM目前可支持微信、淘寶、美團、大眾點評、小紅書、高德地圖、12306、攜程等App的常規跨頁面操作，在訂票、點外賣等日常場景中大幅提升使用體驗。

圖源：國泰君安

雖然AutoGLM在性能上，使用上相對有一定優勢，但仍有較大的進步空間，例如其并沒有熟練掌握每個APP的使用方法，在點外賣時難以兼顧到“優惠券”等因素；且模型對不同設備和屏幕分辨率仍存在適配性問題，跨頁面操作準確度為70-80%。

除了以上兩個產品，其余科技巨頭也在陸續推出類似的AI智能體產品，如OpenAI正在組建多智能體的研發隊伍；蘋果5月發布了可以讓AI理解手機屏幕的Ferret-UI模型；微軟開源了屏幕解析工具OmniParser，可完成自動訂票等功能，谷歌Geimini 2.0有望在12月推出。

在頭部廠商的激烈競爭下，預計未來將快速進入大模型2.0的AI Agent階段，在1.0階段國內大模型廠商略有落后，而2.0階段，AutoGLM等產品明顯具備“彎道超車”的競爭優勢。

落地到投資的角度看，AI Agent仍處于相對早期概念到商業化落地的階段，目前從應用推廣和業績表現上看都為時尚早，但賽道已經進入加速期，值得進一步關注。

具體可以關注以下幾個方向：

一是大模型廠商，由于AI Agent仍是基于大模型延伸出來的升級產品，有多模態大模型技術優勢的廠商仍可能優先出產品，或是將產品落地，可以關注各家AI智能體的進展、性能、有無終端場景/產品落地，優先選擇各方面進展較快的標的。

二是B端垂類賽道的廠商，包括數據/技術/應用等環節，AI Agent最終還是要落地到終端應用場景，而針對B端的應用就是結合各種垂類賽道的特色數據和要素形成的模型，因此，有擁有垂類數據要素和AI需求的行業參與者，也有望優先成為“試點”，特別是前面提到的進展較快的金融、能源、政務等行業。

另外，還包括MaaS廠商，大模型廠商會與MaaS廠商合作推廣B端大模型產品，MaaS廠商可以提供落地工具和開發框架，也有望深度受益。

三是偏C端的終端廠商，包括陪伴機器人（機器人）、個人助理（手機/電腦等終端）、娛樂（游戲、影視、AI應用）等場景下的參與者。其中比較重要的是消費電子相關的終端，因為這是個人消費者使用AI智能體最直接的工具。

目前，AI智能體正在加速落地至手機和PC當中，形成AI PC、AI Phone等新一代智能終端，如榮耀Magic 7系列搭載了L3級AI Agent，不僅可完成幫忙發文件、智能填表、購物比價等基礎操作，且可根據用戶指令完成關閉自動續費、購買飲品、規劃旅行路線及訂票等多項跨應用操作。

蘋果iOS 18.1正式版也將增加writing tool、語音轉錄、一鍵總結歸納等AI功能，增強AI的使用體驗；另外，中國三星與智譜華章達成戰略合作，未來將把三星的AI硬件優勢與智譜GLM大模型相結合，共同打造AI手機和智能服務。

由于C端消費者規模大，市場廣闊，在技術和使用體驗的驅動下，相關智能終端的銷量有望明顯提升，持續受益。

四是AI大模型升級至AI Agent過程中的硬件需求提升，如比較直接提供算力的端側AI芯片、存儲、以及在多模態交互環節的音頻模組（語音交互）；云端大模型相關的光模塊等。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。