黃仁勛在英偉達GTC2025的主題演講中回顧了AI過去十幾年的發展。從2012年AlexNet開始的深度學習,到近幾年大模型推動的生成式AI,再到當下正經歷的Agentic AI,直到未來的Physical AI。 ![]() 深度學習的十年里,AI進展超過了此前傳統機器學習三十年的積累。而ChatGPT上線后的短短兩年半,AI更是突飛猛進,取得的成果已經遠超深度學習的十年。 ![]() 在大模型之前,以專家系統、傳統機器學習和傳統深度學習為代表的AI,依賴專業界面和指令,解決專用任務。比如用Photoshop進行交互式摳圖。這一階段的AI和人類歷史上每次技術革命一樣,提供的是被人類使用的工具。 ![]() 除了內容理解和生成的感知能力,大模型逐步具備了任務規劃和工具使用的認知決策和行動能力。AI可以直接理解和實現目標導向的高層需求。 比如提出“為某新產品設計海報并發布到小紅書”,Manus會自主進行任務規劃—將復雜任務拆解為多個子任務,并在必要時使用外部工具/其他agent來執行其中某個子任務。 此時,AI成為了主駕駛Auto-Pilot--即AI Agent。根據OpenAI的定義:AI Agent是具備自主理解、規劃、記憶和工具調用能力的系統,能自動化完成復雜任務。 ![]() 以上是從AI發展的角度看如何從Tool演變為AI Agent。從Agent這個術語本身出發,哲學和AI有不同的定義。以技術實現為目的,我們更關注AI定義中的自主性、反應性和交互式,暫不討論尚未形成共識的哲學范疇的意識等問題。 實際上,Agent一直是AI發展中的核心概念。從技術路徑看,先后經歷了基于規則和基于強化學習兩個階段。AlphaGo和OpenAI早期的游戲Agent即基于強化學習訓練,在單一任務、封閉環境中達到了超過人類的水平。 今天的AI Agent建立在大模型的基礎上,通過預訓練獲得了世界知識先驗,并以語言作為處理不同任務的接口,使得AI Agent超越了僅依賴強化學習的局限,具備一定的泛化能力和通用性。 根據行為發起主體,AI Agent又可以分為被動響應人類需求的autonomous agent,和具備類人格特征和主動行為模式的generative agent。 ![]() 以下從任務規劃和工具使用兩種核心能力、以及應用這三個方面,介紹前一種AI Agent -- autonomous agent的進展。 1. 任務規劃 任務規劃與人類的系統二能力緊密相關。按照心理學理論,系統一代表直覺,從Q直接到A,屬于“快思考”;系統二從Q到A之間增加了多步的邏輯推理,屬于“慢思考”。 ![]() 要讓大模型實現系統二的推理能力,第一種方法是提示詞。 比如思維鏈CoT、思維樹ToT等方法,提供少量包含推理過程的樣本示例,激發模型In-Context Learning上下文學習,在線調整其推斷行為。 ![]() 大模型從預訓練的多任務學習中學到了捕捉上下文關聯的自注意力,提示詞相當于在推斷階段增加了一個“條件層”,讓模型在進行推斷時參考示例中的推理結構,影響其生成結果。 ![]() 然而,互聯網語料主要是 (Q, A) 的形式,這意味著自注意力中學到的上下文關聯是在問題和答案之間的。而推理需要捕捉推理過程和答案之間的關聯。在推理過程上將p(A|Q)展開后,可以看得很清楚。 因此,最直接的方式還是構造含有推理過程的數據,通過學習將推理能力內化進到模型里。 ![]() 主要有監督學習和強化學習兩種學習路線。監督學習類似師傅手把手教徒弟,像是大學之前的通識教育,提供標準解法和完整步驟。 強化學習則更像研究生教育,導師出了題目,學生自己探索,導師定期給反饋。從這個類比也可以理解強化學習中結果獎勵和過程獎勵的關系。 ![]() 以上是從老師的角度,監督學習是“教”,強化學習是“育”。 從學生的角度,監督學習是“學”,強化學習是“習”。別人標注的推理路徑不一定適合你,在試錯中探索適合自己的路徑才是王道。 o1首次展示了基于學習的推理模型的潛力。 之后學術界和開源社區出現了大量復現工作。和預訓練需要大規模集群不同,推理模型的學習聚焦后訓練階段,算力資源的門檻相對較低。 ![]() ![]() 再之后就是DeepSeek R1將推理模型的訓練秘籍公開,而且大幅壓縮了模型訓練和推斷成本。 o1驗證了推理模型的可行性,R1極致優化效率,降低技術應用門檻。從新技術的早期 demo 出現,到成本降低后的規模化應用,是典型的技術演進路徑。 ![]() AI Agent可調用的工具主要有API接口、數據庫和知識庫、外部模型等。對于無法API化的外部系統,可以將圖形界面交互也封裝成工具供Agent調用。 ![]() ![]() 使用工具的第一種方式是系統層的預設流程,即通過硬編碼方式定義Agent的行為邏輯。 優點是確定性強、可靠,但缺乏靈活性、難以應對開放性和動態變化的環境。字節的Coze是典型的通過設計工作流搭建Agent的平臺。 ![]() 另一種實現方式是模型層的提示詞觸發,引導模型選擇合適的工具。這種方式更加靈活,適用于基于局部上下文的任務決策。AutoGPT是早期代表性的基于提示詞的Agent框架。 ![]() Agent框架使用的提示詞方法包括ReAct、Reflexion等。任務規劃使用的XoT關注模型內部行為,ReAct通過使用工具與外部環境交互,Reflexion則進一步結合整個行為軌跡,支持Agent從錯誤中學習并改進行動策略。 ![]() ![]() ![]() ![]() Manus結合使用了預設流程和提示詞的方法:預設的任務解決流程是問題分析-任務規劃-調用子任務Agent-結果總結等,在每個子任務Agent內部則設計了針對性的提示詞。 ![]() 與推理能力類似,工具使用(在推理鏈中使用工具,Chain-of-Action,CoA)也可以通過學習的方式內化到模型中。 將預設流程和提示詞觸發兩種方式統稱為工作流。根據“更少的人工,更多的智能”的原則,基于學習得到的Agent模型應該具有更高的上限。 基于端到端學習的Agent模型o3于4月16日正式上線。Greg Brockman在介紹時明確說o3學習“在思維鏈中使用工具”。 ![]() 3月初的論文給agent模型下了一個定義。 與LLM和推理模型的人-模型二元結構不同,agent模型要求能夠同時進行思考與行動,形成了由人、模型和環境構成的三元結構:使用工具與環境進行交互以獲得反饋,經過多輪的思考、行動和觀察后,最終生成回復。 推理模型已經具備了通用推理能力和單點的工具使用能力。Agent模型訓練旨在面向任務目標,端到端訓練模型在推理過程中的鏈式工具使用能力。 如同研究生通過完成學位論文,才能掌握如何整合查閱文獻、做實驗、繪制圖表這些單個技能完成一個復雜的任務。 ![]() ![]() 端到端訓練的Agent模型,由于面向任務目標進行了策略優化,其選擇的工具和工具使用參數是面向全局任務目標生成的。 相比之下,提示詞觸發的agentic工作流方法,模型雖然也有一定的自主靈活性,但行動是單步進行的,只能根據局部上下文做出選擇。 ![]() Agent模型探索能力上限,Agentic工作流保證任務執行下限,二者在很長時間內將結合使用。 三種可能的結合方式:(1)模塊化協作,確定性流程使用工作流,靈活性需求使用Agent模型;(2)校驗模型結果,通過工作流對Agent模型的輸出進行校驗,減少模型的隨機性和幻覺不確定性等問題;(3)框架+實現,工作流搭建頂層確定框架,模型實現底層靈活和智能。 ![]() 隨著自主性進一步提高,工具也將由agent通過在線編程按需創建。一些全棧開發的agent,比如Devin、亞馬遜的Kiro都在實現類似的功能。 ![]() ![]() 實現方式上包括GUI Agent、API Agent和多Agent三種。 其中多Agent,比如榮耀的OS Agent “YoYo”調用中移動的App Agent“靈犀”,目前看是使用大型App、兼顧通用性和效率的可選方案。 ![]() GUI Agent和API Agent代表了看待未來AI發展的兩種思維。GUI Agent代表的是讓AI適應人類的數字世界,人形機器人即是讓AI適應人類的物理世界。 ![]() 相比物理世界改造的困難,數字世界的改造要相對容易些。API Agent則希望為AI創建一個原生的世界,包括為AI專門設計的工具、交流語言等。 ![]() AutoCoA的框架主要面向的是API Agent。從4月中旬開始,幾個大廠密集發布的工作,也證明端到端RL在API Agent上是跑得通的。 但在GUI Agent上,強如字節的UI-TARS,RL也只能在單步行動上訓練。 問題可能出在是對GUI context的理解上:截屏的方法增加了感知環節,使得端到端訓練難以進行;可訪問樹的方法由于信息丟失,會影響上下文信息的利用。 ![]() Action agent目前主要在各類終端上。Agent入口的層級從高到低有應用級、系統級和硬件級。 微信將元寶直接放到聯系人中,再次體現了騰訊作為連接器的定位:通過微信連接人和信息-公眾號,連接人和服務-小程序,甚至連接任何交易-微信支付。 終端agent應該具備自然交互、自動化、個性化三個特點。分別對應了感知、認知和記憶三方面主要能力。 ![]() ![]() Information agent從基于單次搜索的信息查詢,發展到基于多次搜索的知識服務。 OpenAI的deep research進一步實現了面向任務完成的多次搜索優化,代表了未來AI Agent應用的重要方向。 人的信息處理能力,從查詢、總結到綜合分析,目前information agent已基本具備。更高級的創造能力,除了模型智能的提升,還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實現。 ![]() 關于AI Agent應該通用還是垂直的討論。 從任務特點看,agent與chatbot和reasoner不同,關注的是具體任務的執行,這也是“AI下半場”的另一種解釋:從刷通用能力的benchmark到解決具體任務。 ![]() 對o3等agent基礎模型微調獲得垂直agent的通用公式是:準備完成任務所需的專業工具集、受控環境內可驗證的任務目標,然后進行強化微調。 隨著o3、Qwen3等Agent基礎模型成熟,就好像高素質的研究生畢業生供應增加。企業需要接下來結合具體任務繼續培養,在特定工作上訓練成為業務專家。 端到端訓練垂直Agent,已經在廣告(ICON)、網絡安全(XBOW)、軟件開發(Traversal)等領域有了成功案例。 ![]() OpenAI開始用可替代的人類專家工時評估模型的能力,這表明agent逐步作為一種服務成為生產力。 Agent的生產力由模型智能、工具多樣性和數據專業性三個因素決定。應用層不僅要承接最新模型成果,還需要從工具和數據兩個方面向下優化模型。 與chatbot失效的數據飛輪不同,在agent階段,普通用戶的行動流數據對于提升模型能力還是有用的,所以AI Agent產品目前仍然存在數據飛輪。OpenAI收購Windsurf,很大程度上是看重其豐富的開發者agentic行為數據。 ![]() ![]() 如喬布斯40年前的預言,從how to do、what to do,到what I want,用戶只需描述“我想要什么”,Agent自動完成“怎么做”。AI Agent代表了新的抽象層,已經無限接近人類思維。 正如網頁和App是互聯網信息的應用載體,agent是智能服務的載體。Agent的設計,因此應該更充分地發揮AI整合底層數據資源和工具生態的效率和能力。 ![]() 這需要action agent和information agent的深度融合。馬斯克曾說:電腦和手機是人的數字延伸,其帶來的無限信息訪問能力已經可以讓我們成為超人了。 讓AI像人一樣操縱電腦,從而接管一切人類在屏幕前完成的工作,是OpenAI成立時就定下的目標。 隨著action agent接入更多I/O,information agent可使用更多工具,AI Agent正在突破人類肉身的物理限制,可以以無限帶寬連接世界。這不僅是完成人類的任務,更是讓agent自主、持續地從人類世界學習和進化的方式。 Agent OS將成為AI Agent的運行基礎。 任務規劃、工具使用和記憶是AI Agent的三個基礎能力。關于記憶,“大海撈針”評估的主要是單點信息檢索的能力,agent解決復雜任務需要的是上下文理解和全局推理能力。 最近一年已經看到了任務規劃和工具使用能力的發展,期待記憶機制的突破。 ![]() 回到黃仁勛的主題演講。 預訓練、后訓練、推斷三階段的scaling law,支撐著目前生成式AI和Agentic AI的發展。 ![]() ![]() ![]() |
|
來自: mrjiangkai > 《我的圖書館》