50頁ppt，一起梳理AI Agent的關鍵技術進展

mrjiangkai 2025-05-13 發布于上海

展開全文

黃仁勛在英偉達GTC2025的主題演講中回顧了AI過去十幾年的發展。從2012年AlexNet開始的深度學習，到近幾年大模型推動的生成式AI，再到當下正經歷的Agentic AI，直到未來的Physical AI。

深度學習的十年里，AI進展超過了此前傳統機器學習三十年的積累。而ChatGPT上線后的短短兩年半，AI更是突飛猛進，取得的成果已經遠超深度學習的十年。

“人間一天，AI一年”。從今天回望，深度學習像是上古時期的，傳統機器學習則是更遙遠的遠古技術，而SVM之前的專家系統，算是文明尚未開化的史前AI了。

當前所處的Agentic AI有兩波標志性事件：第一波是去年9月開始的以OpenAI的o1和DeepSeek的R1為代表的推理模型逐漸成熟，第二波是今年初的o3模型上線和Deep Research、Operator、Manus等Agent應用的出現。

在大模型之前，以專家系統、傳統機器學習和傳統深度學習為代表的AI，依賴專業界面和指令，解決專用任務。比如用Photoshop進行交互式摳圖。這一階段的AI和人類歷史上每次技術革命一樣，提供的是被人類使用的工具。

大模型帶來的通用任務解決能力和自然語言交互界面，使AI成為人機協作的副駕駛Co-Pilot。比如GPT-4o支持基于自然語言指令生成圖片、摳圖、風格遷移等。不過，此時仍需人類給出明確、具體的指令：人指揮一步，AI執行一步。

除了內容理解和生成的感知能力，大模型逐步具備了任務規劃和工具使用的認知決策和行動能力。AI可以直接理解和實現目標導向的高層需求。

比如提出“為某新產品設計海報并發布到小紅書”，Manus會自主進行任務規劃—將復雜任務拆解為多個子任務，并在必要時使用外部工具/其他agent來執行其中某個子任務。

此時，AI成為了主駕駛Auto-Pilot--即AI Agent。根據OpenAI的定義：AI Agent是具備自主理解、規劃、記憶和工具調用能力的系統，能自動化完成復雜任務。

以上是從AI發展的角度看如何從Tool演變為AI Agent。從Agent這個術語本身出發，哲學和AI有不同的定義。以技術實現為目的，我們更關注AI定義中的自主性、反應性和交互式，暫不討論尚未形成共識的哲學范疇的意識等問題。

實際上，Agent一直是AI發展中的核心概念。從技術路徑看，先后經歷了基于規則和基于強化學習兩個階段。AlphaGo和OpenAI早期的游戲Agent即基于強化學習訓練，在單一任務、封閉環境中達到了超過人類的水平。

今天的AI Agent建立在大模型的基礎上，通過預訓練獲得了世界知識先驗，并以語言作為處理不同任務的接口，使得AI Agent超越了僅依賴強化學習的局限，具備一定的泛化能力和通用性。

根據行為發起主體，AI Agent又可以分為被動響應人類需求的autonomous agent，和具備類人格特征和主動行為模式的generative agent。

以下從任務規劃和工具使用兩種核心能力、以及應用這三個方面，介紹前一種AI Agent -- autonomous agent的進展。

1. 任務規劃

任務規劃與人類的系統二能力緊密相關。按照心理學理論，系統一代表直覺，從Q直接到A，屬于“快思考”；系統二從Q到A之間增加了多步的邏輯推理，屬于“慢思考”。

（區分推理和推斷：推理reasoning是指模型通過多步驟、結構化的中間過程來得出結論；而推斷inference泛指模型生成輸出結果的過程，可能基于推理、也可能不基于推理）。

要讓大模型實現系統二的推理能力，第一種方法是提示詞。

比如思維鏈CoT、思維樹ToT等方法，提供少量包含推理過程的樣本示例，激發模型In-Context Learning上下文學習，在線調整其推斷行為。

大模型從預訓練的多任務學習中學到了捕捉上下文關聯的自注意力，提示詞相當于在推斷階段增加了一個“條件層”，讓模型在進行推斷時參考示例中的推理結構，影響其生成結果。

然而，互聯網語料主要是 (Q, A) 的形式，這意味著自注意力中學到的上下文關聯是在問題和答案之間的。而推理需要捕捉推理過程和答案之間的關聯。在推理過程上將p(A|Q)展開后，可以看得很清楚。

因此，最直接的方式還是構造含有推理過程的數據，通過學習將推理能力內化進到模型里。

主要有監督學習和強化學習兩種學習路線。監督學習類似師傅手把手教徒弟，像是大學之前的通識教育，提供標準解法和完整步驟。

強化學習則更像研究生教育，導師出了題目，學生自己探索，導師定期給反饋。從這個類比也可以理解強化學習中結果獎勵和過程獎勵的關系。

以上是從老師的角度，監督學習是“教”，強化學習是“育”。

從學生的角度，監督學習是“學”，強化學習是“習”。別人標注的推理路徑不一定適合你，在試錯中探索適合自己的路徑才是王道。

o1首次展示了基于學習的推理模型的潛力。

之后學術界和開源社區出現了大量復現工作。和預訓練需要大規模集群不同，推理模型的學習聚焦后訓練階段，算力資源的門檻相對較低。

而且，預訓練算法在GPT-3.5之前基本都開源了，加上ChatGPT發布后一年多的時間，大家摸索地七七八八了。但后訓練、特別是用強化學習訓練大語言模型，有大量待探索的工作。學術界覺得自己又行了。

再之后就是DeepSeek R1將推理模型的訓練秘籍公開，而且大幅壓縮了模型訓練和推斷成本。

o1驗證了推理模型的可行性，R1極致優化效率，降低技術應用門檻。從新技術的早期 demo 出現，到成本降低后的規模化應用，是典型的技術演進路徑。

強化學習在推理模型訓練中的作用有兩點啟發：（1）計算換數據，（2）合成新數據。通過強化學習采樣出新的高質量數據，為突破人類數據局限、進一步提升模型能力提供了可能。

2. 工具使用

AI Agent可調用的工具主要有API接口、數據庫和知識庫、外部模型等。對于無法API化的外部系統，可以將圖形界面交互也封裝成工具供Agent調用。

使用工具的第一種方式是系統層的預設流程，即通過硬編碼方式定義Agent的行為邏輯。

優點是確定性強、可靠，但缺乏靈活性、難以應對開放性和動態變化的環境。字節的Coze是典型的通過設計工作流搭建Agent的平臺。

另一種實現方式是模型層的提示詞觸發，引導模型選擇合適的工具。這種方式更加靈活，適用于基于局部上下文的任務決策。AutoGPT是早期代表性的基于提示詞的Agent框架。

Agent框架使用的提示詞方法包括ReAct、Reflexion等。任務規劃使用的XoT關注模型內部行為，ReAct通過使用工具與外部環境交互，Reflexion則進一步結合整個行為軌跡，支持Agent從錯誤中學習并改進行動策略。

Manus結合使用了預設流程和提示詞的方法：預設的任務解決流程是問題分析-任務規劃-調用子任務Agent-結果總結等，在每個子任務Agent內部則設計了針對性的提示詞。

與推理能力類似，工具使用（在推理鏈中使用工具，Chain-of-Action，CoA）也可以通過學習的方式內化到模型中。

將預設流程和提示詞觸發兩種方式統稱為工作流。根據“更少的人工，更多的智能”的原則，基于學習得到的Agent模型應該具有更高的上限。

基于端到端學習的Agent模型o3于4月16日正式上線。Greg Brockman在介紹時明確說o3學習“在思維鏈中使用工具”。

3月初的論文給agent模型下了一個定義。

與LLM和推理模型的人-模型二元結構不同，agent模型要求能夠同時進行思考與行動，形成了由人、模型和環境構成的三元結構：使用工具與環境進行交互以獲得反饋，經過多輪的思考、行動和觀察后，最終生成回復。

推理模型已經具備了通用推理能力和單點的工具使用能力。Agent模型訓練旨在面向任務目標，端到端訓練模型在推理過程中的鏈式工具使用能力。

如同研究生通過完成學位論文，才能掌握如何整合查閱文獻、做實驗、繪制圖表這些單個技能完成一個復雜的任務。

Agent模型學習框架需要平衡思考與行動，并處理外部環境交互帶來的訓練不穩定和效率低成本高的問題。

AutoCoA設計了分層SFT，將模型行動的when和how兩個能力拆解；并提出了混合環境RL，訓練策略模型自己模擬環境反饋。

端到端訓練的Agent模型，由于面向任務目標進行了策略優化，其選擇的工具和工具使用參數是面向全局任務目標生成的。

相比之下，提示詞觸發的agentic工作流方法，模型雖然也有一定的自主靈活性，但行動是單步進行的，只能根據局部上下文做出選擇。

Agent模型探索能力上限，Agentic工作流保證任務執行下限，二者在很長時間內將結合使用。

三種可能的結合方式：（1）模塊化協作，確定性流程使用工作流，靈活性需求使用Agent模型；（2）校驗模型結果，通過工作流對Agent模型的輸出進行校驗，減少模型的隨機性和幻覺不確定性等問題；（3）框架+實現，工作流搭建頂層確定框架，模型實現底層靈活和智能。

隨著自主性進一步提高，工具也將由agent通過在線編程按需創建。一些全棧開發的agent，比如Devin、亞馬遜的Kiro都在實現類似的功能。

3. AI Agent應用

Operator和Deep Research代表了目前AI Agent的兩個主要應用方向：操作action agent和信息information agent。

前者扮演“眼和手”的角色，擅長環境交互與自動化操作，適用于重復性強的操作密集型任務。后者扮演“大腦”的角色，擅長知識整合與復雜分析，適用于知識密集型任務。

實現方式上包括GUI Agent、API Agent和多Agent三種。

其中多Agent，比如榮耀的OS Agent “YoYo”調用中移動的App Agent“靈犀”，目前看是使用大型App、兼顧通用性和效率的可選方案。

GUI Agent和API Agent代表了看待未來AI發展的兩種思維。GUI Agent代表的是讓AI適應人類的數字世界，人形機器人即是讓AI適應人類的物理世界。

相比物理世界改造的困難，數字世界的改造要相對容易些。API Agent則希望為AI創建一個原生的世界，包括為AI專門設計的工具、交流語言等。

AutoCoA的框架主要面向的是API Agent。從4月中旬開始，幾個大廠密集發布的工作，也證明端到端RL在API Agent上是跑得通的。

但在GUI Agent上，強如字節的UI-TARS，RL也只能在單步行動上訓練。

問題可能出在是對GUI context的理解上：截屏的方法增加了感知環節，使得端到端訓練難以進行；可訪問樹的方法由于信息丟失，會影響上下文信息的利用。

Action agent目前主要在各類終端上。Agent入口的層級從高到低有應用級、系統級和硬件級。

微信將元寶直接放到聯系人中，再次體現了騰訊作為連接器的定位：通過微信連接人和信息-公眾號，連接人和服務-小程序，甚至連接任何交易-微信支付。

終端agent應該具備自然交互、自動化、個性化三個特點。分別對應了感知、認知和記憶三方面主要能力。

Information agent從基于單次搜索的信息查詢，發展到基于多次搜索的知識服務。

OpenAI的deep research進一步實現了面向任務完成的多次搜索優化，代表了未來AI Agent應用的重要方向。

人的信息處理能力，從查詢、總結到綜合分析，目前information agent已基本具備。更高級的創造能力，除了模型智能的提升，還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實現。

關于AI Agent應該通用還是垂直的討論。

從任務特點看，agent與chatbot和reasoner不同，關注的是具體任務的執行，這也是“AI下半場”的另一種解釋：從刷通用能力的benchmark到解決具體任務。

從實現方式看，工作流的方法需要面向任務設計具體的執行邏輯；基于RL學習的方法，則需要根據任務目標，設定準確的環境獎勵。

對o3等agent基礎模型微調獲得垂直agent的通用公式是：準備完成任務所需的專業工具集、受控環境內可驗證的任務目標，然后進行強化微調。

隨著o3、Qwen3等Agent基礎模型成熟，就好像高素質的研究生畢業生供應增加。企業需要接下來結合具體任務繼續培養，在特定工作上訓練成為業務專家。

端到端訓練垂直Agent，已經在廣告（ICON）、網絡安全（XBOW）、軟件開發（Traversal）等領域有了成功案例。

OpenAI開始用可替代的人類專家工時評估模型的能力，這表明agent逐步作為一種服務成為生產力。

Agent的生產力由模型智能、工具多樣性和數據專業性三個因素決定。應用層不僅要承接最新模型成果，還需要從工具和數據兩個方面向下優化模型。

與chatbot失效的數據飛輪不同，在agent階段，普通用戶的行動流數據對于提升模型能力還是有用的，所以AI Agent產品目前仍然存在數據飛輪。OpenAI收購Windsurf，很大程度上是看重其豐富的開發者agentic行為數據。

對比傳統軟件通過需求分析確定高頻、標準、靜態的需求，基于Agent的服務可以滿足長尾、個性化、動態的需求。基于Agent的新一代軟件的界面可能被高度簡化為一個對話框，傳統復雜的操作過程被隱藏，成為面向目標的服務交付。

如喬布斯40年前的預言，從how to do、what to do，到what I want，用戶只需描述“我想要什么”，Agent自動完成“怎么做”。AI Agent代表了新的抽象層，已經無限接近人類思維。

正如網頁和App是互聯網信息的應用載體，agent是智能服務的載體。Agent的設計，因此應該更充分地發揮AI整合底層數據資源和工具生態的效率和能力。

這需要action agent和information agent的深度融合。馬斯克曾說：電腦和手機是人的數字延伸，其帶來的無限信息訪問能力已經可以讓我們成為超人了。

讓AI像人一樣操縱電腦，從而接管一切人類在屏幕前完成的工作，是OpenAI成立時就定下的目標。

隨著action agent接入更多I/O，information agent可使用更多工具，AI Agent正在突破人類肉身的物理限制，可以以無限帶寬連接世界。這不僅是完成人類的任務，更是讓agent自主、持續地從人類世界學習和進化的方式。

Agent OS將成為AI Agent的運行基礎。

任務規劃、工具使用和記憶是AI Agent的三個基礎能力。關于記憶，“大海撈針”評估的主要是單點信息檢索的能力，agent解決復雜任務需要的是上下文理解和全局推理能力。

最近一年已經看到了任務規劃和工具使用能力的發展，期待記憶機制的突破。

回到黃仁勛的主題演講。

預訓練、后訓練、推斷三階段的scaling law，支撐著目前生成式AI和Agentic AI的發展。

這背后是從算力到智能的sweet lesson。

隨著算力每年增長4-5倍，近十年的算力已經提升了百萬倍。當算力資源成為主要的推動因素，AI發展的一條暗線是：如何將越來越多的算力以最高的效率轉化為智能的提升。

這一過程分成了三個階段。早期從SVM到DNN再到Transformer，是從算法側消化算力，能在大量數據上訓練大規模參數的模型，可以說到Transformer已基本收斂了。

接下來解決的是如何提供源源不斷的數據。這包括了預訓練基于自監督學習可以吃掉整個互聯網的數據，以及后訓練結合強化學習將算力轉化為高質量的合成數據。

AI Agent是這一線索的延續：在推斷階段，用更多時間消耗更多算力，進一步提升智能水平。

進一步，從預訓練到后訓練再到推斷的三個scaling law，不是簡單的單向關系。

后訓練中采樣獲得的高質量推理數據，推斷階段通過工具與外部環境交互獲得的行為數據，可以反哺預訓練，形成正向循環，實現智能的持續提升。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。