久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    50頁ppt,一起梳理AI Agent的關鍵技術進展

     mrjiangkai 2025-05-13 發布于上海

    黃仁勛在英偉達GTC2025的主題演講中回顧了AI過去十幾年的發展。從2012AlexNet開始的深度學習,到近幾年大模型推動的生成式AI,再到當下正經歷的Agentic AI,直到未來的Physical AI

    Image

    深度學習的十年里,AI進展超過了此前傳統機器學習三十年的積累。而ChatGPT上線后的短短兩年半,AI更是突飛猛進,取得的成果已經遠超深度學習的十年。

    “人間一天,AI一年”。從今天回望,深度學習像是上古時期的,傳統機器學習則是更遙遠的遠古技術,而SVM之前的專家系統,算是文明尚未開化的史前AI
    當前所處的Agentic AI有兩波標志性事件:第一波是去年9月開始的以OpenAI的o1和DeepSeek的R1為代表的推理模型逐漸成熟,第二波是今年初的o3模型上線和Deep Research、Operator、Manus等Agent應用的出現。
    Image

    在大模型之前,以專家系統、傳統機器學習和傳統深度學習為代表的AI依賴專業界面和指令,解決專用任務。比如用Photoshop進行交互式摳圖。這一階段的AI和人類歷史上每次技術革命一樣,提供的是被人類使用的工具。

    大模型帶來的通用任務解決能力和自然語言交互界面,使AI成為人機協作的副駕駛Co-Pilot。比如GPT-4o支持基于自然語言指令生成圖片、摳圖、風格遷移等。不過,此時仍需人類給出明確、具體的指令:人指揮一步,AI執行一步。
    Image

    除了內容理解和生成的感知能力,大模型逐步具備了任務規劃和工具使用的認知決策和行動能力AI可以直接理解和實現目標導向的高層需求

    比如提出“為某新產品設計海報并發布到小紅書”,Manus會自主進行任務規劃將復雜任務拆解為多個子任務,并在必要時使用外部工具/其他agent來執行其中某個子任務。

    此時,AI成為了主駕駛Auto-Pilot--AI Agent。根據OpenAI的定義:AI Agent是具備自主理解、規劃、記憶和工具調用能力的系統,能自動化完成復雜任務

    Image

    以上是從AI發展的角度看如何從Tool演變為AI Agent。從Agent這個術語本身出發,哲學和AI有不同的定義。以技術實現為目的,我們更關注AI定義中的自主性、反應性和交互式,暫不討論尚未形成共識的哲學范疇的意識等問題。

    實際上,Agent一直是AI發展中的核心概念。從技術路徑看,先后經歷了基于規則和基于強化學習兩個階段。AlphaGoOpenAI早期的游戲Agent即基于強化學習訓練,在單一任務、封閉環境中達到了超過人類的水平。

    今天的AI Agent建立在大模型的基礎上,通過預訓練獲得了世界知識先驗,并以語言作為處理不同任務的接口,使得AI Agent超越了僅依賴強化學習的局限,具備一定的泛化能力和通用性

    根據行為發起主體,AI Agent又可以分為被動響應人類需求的autonomous agent,和具備類人格特征和主動行為模式的generative agent

    Image

    以下從任務規劃和工具使用兩種核心能力、以及應用這三個方面,介紹前一種AI Agent -- autonomous agent的進展。

    1.  任務規劃

    任務規劃與人類的系統二能力緊密相關。按照心理學理論,系統一代表直覺,從Q直接到A,屬于“快思考”;系統二從QA之間增加了多步的邏輯推理,屬于“慢思考”。

    (區分推理和推斷推理reasoning指模型通過多步驟、結構化的中間過程來得出結論;而推斷inference泛指模型生成輸出結果的過程,可能基于推理、也可能不基于推理)。
    Image

    要讓大模型實現系統二的推理能力,第一種方法是提示詞。

    比如思維鏈CoT、思維樹ToT等方法,提供少量包含推理過程的樣本示例,激發模型In-Context Learning上下文學習,在線調整其推斷行為。

    Image

    大模型從預訓練的多任務學習中學到了捕捉上下文關聯的自注意力,提示詞相當于在推斷階段增加了一個“條件層”,讓模型在進行推斷時參考示例中的推理結構,影響其生成結果

    Image

    然而,互聯網語料主要是 (Q, A) 的形式,這意味著自注意力中學到的上下文關聯是在問題和答案之間的。而推理需要捕捉推理過程和答案之間的關聯。在推理過程上將p(A|Q)展開后,可以看得很清楚。

    因此,最直接的方式還是構造含有推理過程的數據,通過學習將推理能力內化進到模型里。

    Image

    主要有監督學習和強化學習兩種學習路線。監督學習類似師傅手把手教徒弟,像是大學之前的通識教育,提供標準解法和完整步驟。

    強化學習則更像研究生教育,導師出了題目,學生自己探索,導師定期給反饋。從這個類比也可以理解強化學習中結果獎勵和過程獎勵的關系。

    Image

    以上是從老師的角度,監督學習是“教”,強化學習是“育”

    從學生的角度,監督學習是“學”,強化學習是“習”。別人標注的推理路徑不一定適合你,在試錯中探索適合自己的路徑才是王道。

    o1首次展示了基于學習的推理模型的潛力。

    之后學術界和開源社區出現了大量復現工作。和預訓練需要大規模集群不同,推理模型的學習聚焦后訓練階段,算力資源的門檻相對較低。

    而且,預訓練算法在GPT-3.5之前基本都開源了,加上ChatGPT發布后一年多的時間,大家摸索地七七八八了。但后訓練、特別是用強化學習訓練大語言模型,有大量待探索的工作。學術界覺得自己又行了。
    Image
    Image

    再之后就是DeepSeek R1將推理模型的訓練秘籍公開,而且大幅壓縮了模型訓練和推斷成本。

    o1驗證了推理模型的可行性R1極致優化效率,降低技術應用門檻從新技術的早期 demo 出現,到成本降低后的規模化應用,是典型的技術演進路徑

    強化學習在推理模型訓練中的作用有兩點啟發:(1)計算換數據,(2)合成新數據通過強化學習采樣出新的高質量數據,為突破人類數據局限、進一步提升模型能力提供了可能。
    Image

    2.  工具使用

    AI Agent可調用的工具主要有API接口、數據庫和知識庫、外部模型等。對于無法API化的外部系統,可以將圖形界面交互也封裝成工具供Agent調用。

    Image
    Image

    使用工具的第一種方式是系統層的預設流程即通過硬編碼方式定義Agent的行為邏輯。

    優點是確定性強、可靠,但缺乏靈活性、難以應對開放性和動態變化的環境。字節的Coze是典型的通過設計工作流搭建Agent的平臺。

    Image

    另一種實現方式模型層的提示詞觸發引導模型選擇合適的工具。這種方式更加靈活,適用于基于局部上下文的任務決策。AutoGPT是早期代表性的基于提示詞的Agent框架。

    Image

    Agent框架使用的提示詞方法包括ReActReflexion等。任務規劃使用的XoT關注模型內部行為,ReAct通過使用工具與外部環境交互,Reflexion則進一步結合整個行為軌跡,支持Agent從錯誤中學習并改進行動策略。

    Image
    Image
    Image
    Image

    Manus結合使用了預設流程和提示詞的方法:預設的任務解決流程是問題分析-任務規劃-調用子任務Agent-結果總結等,在每個子任務Agent內部則設計了針對性的提示詞。

    Image

    與推理能力類似,工具使用(在推理鏈中使用工具,Chain-of-ActionCoA)也可以通過學習的方式內化到模型中。

    將預設流程和提示詞觸發兩種方式統稱為工作流。根據“更少的人工,更多的智能”的原則,基于學習得到的Agent模型應該具有更高的上限。

    基于端到端學習的Agent模型o3416日正式上線。Greg Brockman在介紹時明確說o3學習“在思維鏈中使用工具”。

    Image

    3月初的論文給agent模型下了一個定義。

    LLM和推理模型的人-模型二元結構不同,agent模型要求能夠同時進行思考與行動,形成了由人、模型和環境構成的三元結構:使用工具與環境進行交互以獲得反饋,經過多輪的思考、行動和觀察后,最終生成回復

    推理模型已經具備了通用推理能力和單點的工具使用能力。Agent模型訓練旨在面向任務目標,端到端訓練模型在推理過程中的鏈式工具使用能力。

    如同研究生通過完成學位論文,才能掌握如何整合查閱文獻、做實驗、繪制圖表這些單個技能完成一個復雜的任務。

    Image
    Agent模型學習框架需要平衡思考與行動,并處理外部環境交互帶來的訓練不穩定和效率低成本高的問題。
    AutoCoA設計了分層SFT,將模型行動的whenhow兩個能力拆解;并提出了混合環境RL,訓練策略模型自己模擬環境反饋。
    Image

    端到端訓練的Agent模型,由于面向任務目標進行了策略優化,其選擇的工具和工具使用參數是面向全局任務目標生成的。

    相比之下,提示詞觸發的agentic工作流方法,模型雖然也有一定的自主靈活性,但行動是單步進行的,只能根據局部上下文做出選擇。

    Image

    Agent模型探索能力上限,Agentic工作流保證任務執行下限,二者在很長時間內將結合使用。

    三種可能的結合方式:(1模塊化協作,確定性流程使用工作流,靈活性需求使用Agent模型;(2校驗模型結果,通過工作流對Agent模型的輸出進行校驗,減少模型的隨機性和幻覺不確定性等問題;(3框架+實現,工作流搭建頂層確定框架,模型實現底層靈活和智能。

    Image

    隨著自主性進一步提高,工具也將由agent通過在線編程按需創建。一些全棧開發的agent,比如Devin、亞馬遜的Kiro都在實現類似的功能。

    Image

    3.  AI Agent應用
    OperatorDeep Research代表了目前AI Agent的兩個主要應用方向:操作action agent信息information agent
    前者扮演眼和手的角色,擅長環境交互與自動化操作,適用于重復性強的操作密集型任務。后者扮演大腦的角色,擅長知識整合與復雜分析,適用于知識密集型任務
    Image

    實現方式上包括GUI AgentAPI Agent和多Agent三種

    其中多Agent,比如榮耀的OS Agent YoYo”調用中移動的App Agent“靈犀”,目前看是使用大型App、兼顧通用性和效率的可選方案。

    Image

    GUI AgentAPI Agent代表了看待未來AI發展的兩種思維。GUI Agent代表的是讓AI適應人類的數字世界,人形機器人即是讓AI適應人類的物理世界。

    Image

    相比物理世界改造的困難,數字世界的改造要相對容易些。API Agent則希望為AI創建一個原生的世界,包括為AI專門設計的工具、交流語言等。

    Image

    AutoCoA的框架主要面向的是API Agent。從4月中旬開始,幾個大廠密集發布的工作,也證明端到端RLAPI Agent上是跑得通的

    但在GUI Agent上,強如字節的UI-TARSRL也只能在單步行動上訓練。

    問題可能出在是GUI context的理解上:截屏的方法增加了感知環節,使得端到端訓練難以進行;可訪問樹的方法由于信息丟失,會影響上下文信息的利用。

    Image

    Action agent目前主要在各類終端上。Agent入口的層級從高到低有應用級、系統級和硬件級

    微信將元寶直接放到聯系人中,再次體現了騰訊作為連接器的定位:通過微信連接人和信息-公眾號,連接人和服務-小程序,甚至連接任何交易-微信支付。

    終端agent應該具備自然交互、自動化、個性化三個特點。分別對應了感知、認知和記憶三方面主要能力。

    Image
    Image

    Information agent從基于單次搜索的信息查詢,發展到基于多次搜索的知識服務。

    OpenAIdeep research進一步實現了面向任務完成的多次搜索優化,代表了未來AI Agent應用的重要方向。

    人的信息處理能力,從查詢、總結到綜合分析,目前information agent已基本具備。更高級的創造能力,除了模型智能的提升,還需要更多的API接口、以及融合action agent與物理世界打通提供更多元的外部信息才可能實現。

    Image

    關于AI Agent應該通用還是垂直的討論。

    從任務特點看,agentchatbotreasoner不同,關注的是具體任務的執行,這也是“AI下半場”的另一種解釋:從刷通用能力的benchmark到解決具體任務。

    從實現方式看,工作流的方法需要面向任務設計具體的執行邏輯;基于RL學習的方法,則需要根據任務目標,設定準確的環境獎勵
    Image

    o3agent基礎模型微調獲得垂直agent的通用公式是:準備完成任務所需的專業工具集、受控環境內可驗證的任務目標,然后進行強化微調

    隨著o3、Qwen3等Agent基礎模型成熟,就好像高素質的研究生畢業生供應增加。企業需要接下來結合具體任務繼續培養,在特定工作上訓練成為業務專家。

    端到端訓練垂直Agent,已經在廣告(ICON)、網絡安全(XBOW)、軟件開發(Traversal)等領域有了成功案例。

    Image

    OpenAI開始用可替代的人類專家工時評估模型的能力,這表明agent逐步作為一種服務成為生產力。

    Agent的生產力由模型智能、工具多樣性和數據專業性三個因素決定。應用層不僅要承接最新模型成果,還需要從工具和數據兩個方面向下優化模型。

    chatbot失效的數據飛輪不同,在agent階段,普通用戶的行動流數據對于提升模型能力還是有用的,所以AI Agent產品目前仍然存在數據飛輪。OpenAI收購Windsurf,很大程度上是看重其豐富的開發者agentic行為數據。

    對比傳統軟件通過需求分析確定高頻、標準、靜態的需求,基于Agent的服務可以滿足長尾、個性化、動態的需求。基于Agent的新一代軟件的界面可能被高度簡化為一個對話框,傳統復雜的操作過程被隱藏,成為面向目標的服務交付。
    Image
    Image

    如喬布斯40年前的預言,how to dowhat to do,到what I want用戶只需描述我想要什么Agent自動完成怎么做AI Agent代表了新的抽象層,已經無限接近人類思維。

    正如網頁和App是互聯網信息的應用載體,agent是智能服務的載體。Agent的設計,因此應該更充分地發揮AI整合底層數據資源和工具生態效率和能力。

    Image

    這需要action agentinformation agent的深度融合。馬斯克曾說:電腦和手機是人的數字延伸,其帶來的無限信息訪問能力已經可以讓我們成為超人了。

    讓AI像人一樣操縱電腦,從而接管一切人類在屏幕前完成的工作,是OpenAI成立時就定下的目標。

    隨著action agent接入更多I/Oinformation agent可使用更多工具,AI Agent正在突破人類肉身的物理限制,可以以無限帶寬連接世界。這不僅是完成人類的任務,更是讓agent自主、持續地從人類世界學習和進化的方式。

    Agent OS將成為AI Agent的運行基礎。

    任務規劃、工具使用和記憶是AI Agent的三個基礎能力。關于記憶,“大海撈針”評估的主要是單點信息檢索的能力,agent解決復雜任務需要的是上下文理解和全局推理能力。

    最近一年已經看到了任務規劃和工具使用能力的發展,期待記憶機制的突破。

    Image
                                          

    回到黃仁勛的主題演講。

    預訓練、后訓練、推斷三階段的scaling law,支撐著目前生成式AI和Agentic AI的發展。

    Image
    這背后是從算力到智能的sweet lesson。
    隨著算力每年增長4-5倍,近十年的算力已經提升了百萬倍。當算力資源成為主要的推動因素,AI發展的一條暗線是:如何將越來越多的算力以最高的效率轉化為智能的提升
    這一過程分成了三個階段。早期從SVM到DNN再到Transformer,是從算法側消化算力,能在大量數據上訓練大規模參數的模型,可以說到Transformer已基本收斂了。
    接下來解決的是如何提供源源不斷的數據。這包括了預訓練基于自監督學習可以吃掉整個互聯網的數據,以及后訓練結合強化學習將算力轉化為高質量的合成數據。
    AI Agent是這一線索的延續:在推斷階段,用更多時間消耗更多算力,進一步提升智能水平。
    Image
    進一步,從預訓練到后訓練再到推斷的三個scaling law,不是簡單的單向關系。
    后訓練中采樣獲得的高質量推理數據,推斷階段通過工具與外部環境交互獲得的行為數據,可以反哺預訓練,形成正向循環,實現智能的持續提升
    Image

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 精品视频在线观看免费观看| 男人猛进出女人下面视频| 日韩中文字幕高清有码| 亚洲精品无码成人A片九色播放 | 欧美和黑人xxxx猛交视频| 国产91午夜福利精品| 国产SM重味一区二区三区| 男女性杂交内射女bbwxz| 亚洲色一色噜一噜噜噜| 精品久久久久久成人AV| 亚洲av成人无码精品电影在线| 一本大道中文日本香蕉| 一本一道久久A久久精品综合| 免费人成网站免费看视频| 在线观看热码亚洲AV每日更新| 中文字幕国产原创国产| 国产美女MM131爽爽爽| 一区二区三区精品视频免费播放| 无码国产偷倩在线播放| 亚洲AV无码一区东京热久久| 免费观看欧美猛交视频黑人| 成年男女免费视频网站| 加勒比无码人妻东京热| 国产又爽又黄无码无遮挡在线观看| 国产高清在线男人的天堂| 无码国产精品久久一区免费| 亚洲日韩性欧美中文字幕| 成人午夜福利视频镇东影视| 好男人好资源WWW社区| 国产偷国产偷亚洲清高| 国产又黄又爽又刺激的免费网址 | 99国产成人综合久久精品| 国产成人啪精品视频免费APP| 精品一区二区三区自拍图片区| 成人拍拍拍无遮挡免费视频| 被黑人伦流澡到高潮HNP动漫| 一本一本久久A久久精品综合不卡| 精品无码久久久久久尤物| 宅男666在线永久免费观看| 2019久久久高清日本道| 中文成人无码精品久久久|