文:王智遠(yuǎn) | ID:Z201440
查了一下: AI Agent熱潮,準(zhǔn)確來說,從2023年3月開始。那時(shí)候,一個(gè)叫AutoGPT框架項(xiàng)目發(fā)布,項(xiàng)目利用大型語言模型,能自動把一個(gè)大任務(wù)拆分成小任務(wù),并使用工具完成它們。這種技術(shù),將大預(yù)言模型處理語言、創(chuàng)造內(nèi)容,和邏輯推理的能力擴(kuò)展到了應(yīng)用場景里,還加了感知和行動技術(shù),所以,能從頭到尾解決一個(gè)簡單的問題。緊接著,一年時(shí)間內(nèi),項(xiàng)目引起國外大公司、國內(nèi)創(chuàng)業(yè)者、投資者們極大關(guān)注,大家開始積極開發(fā)AI Agent的框架、平臺或具體應(yīng)用。外加上去年11月,OpenAI又推出一系列的GPTs,然后,國內(nèi)才有不少公司才開始根據(jù)各自能力布局應(yīng)用層、平臺層、開發(fā)層和運(yùn)營層等方向,來增加下一波生態(tài)下的壁壘性。因此,人們才認(rèn)為它是下一個(gè)重要細(xì)分發(fā)展方向。可是:任何行業(yè)都存在信息差,我周圍有很多人,之前并沒有關(guān)注該賽道,爆發(fā)后才覺得有必要了解下,但現(xiàn)在市場上各種信息泛濫,讓人眼花繚亂,就帶來不少困擾。 他們不太清楚Agent是什么?為什么很重要,未來發(fā)展怎樣?借此機(jī)會,分享一些信息,希望幫你初步了解這個(gè)概念。01 到底什么是AI agent?它是怎么工作的呢? 先來看一個(gè)詞:“agent”,中文意思是代理人。代理人,你可以理解成有人幫你去做某件事。那么,AI agent是什么?簡單來說,一個(gè)由AI技術(shù)加持的代理人,它變得更聰明了,可以感知周圍的環(huán)境,并且能夠獨(dú)立地思考和行動。你有沒有用過對話式的大模型(LLM),比如:文心一言、Kimi Chat、或者智譜AI?AI agent和對話式模型區(qū)別在于,你不用一直告訴它要做什么,只要給它一個(gè)目標(biāo),就能想辦法自動幫你完成。所以,大模型(LLM)要很多各種各樣的數(shù)據(jù),數(shù)據(jù)幫助它,學(xué)習(xí)的和人一樣具備交流、學(xué)習(xí)、思考和推理的能力。不過,它并不完美,時(shí)常出現(xiàn)一些奇怪的想法,或者受到環(huán)境影響;這時(shí),就能用基于大模型開發(fā)的AI agent進(jìn)一步細(xì)化問題。你用過小愛同學(xué)嗎?假如生病了,以前對它說:“我不舒服”,它只會告訴你去醫(yī)院看看,多注意防護(hù)。如果更聰明的AI agent,做法會不一樣。它能檢測你的體溫和其他健康指標(biāo),結(jié)合網(wǎng)上的信息,分析之后告訴你:你可能發(fā)燒了。”接下來,還能幫你自動寫好請假條。如果說:“幫我在釘釘上發(fā)給領(lǐng)導(dǎo)”,它立刻就能搞定。要是家里布洛芬不夠了,它甚至可以把藥加入購物車,你確認(rèn)后付款,很快藥就能送到家。這就是AI agent的聰明之處。感知是第一步。AI通過傳感器、攝像頭、麥克風(fēng)這些外部設(shè)備來感知周圍的世界。比如你說:“我不舒服”,這句話就能通過麥克風(fēng)被捕捉到。信息處理,像把一個(gè)通用的大模型和很多專業(yè)的知識庫結(jié)合起來。比如:健康數(shù)據(jù)和家里的藥物存量,你告訴它這些信息,它就能幫你保存并做出決策。寫請假條、在線購買藥品,這些都是系統(tǒng)根據(jù)它的決策來完成的具體工作。完成之后,系統(tǒng)會告訴你結(jié)果。一個(gè)完整的智能體(Agent),好比人類和周圍環(huán)境互動的過程,它由兩部分組成:一部分是智能體自己,另一部分是它所在的環(huán)境。智能體像生活在物理世界中的人類,而物理世界是它的外部環(huán)境,人類感知周圍的世界,理解環(huán)境中隱藏的信息,再結(jié)合自己的記憶、對世界的了解來做計(jì)劃、做決定和采取行動一樣;行動又會影響環(huán)境,產(chǎn)生新的反饋。人類根據(jù)反饋再次做出決策,從而形成一個(gè)不斷循環(huán)的過程。你看,整個(gè)過程像不像馬克思主義的「實(shí)踐論」?有個(gè)目標(biāo)后,從認(rèn)識開始,實(shí)踐得出理論知識,再把知識應(yīng)用回實(shí)踐中去。這就是,AI Agent神奇之處。02? 不過,由于大模型本身能力還在不斷發(fā)展中,智能體形態(tài)、應(yīng)用場景也就更晚一些,所以,看似短短一年內(nèi),探索了多種實(shí)現(xiàn)智能體的方式,但大部分還處在概念驗(yàn)證、產(chǎn)品演示階段,常見問題也相對明顯。 包括:項(xiàng)目文檔不完整、復(fù)用效果不穩(wěn)定、任務(wù)拆分過細(xì),導(dǎo)致成本過高,以及推理能力不夠,更主要的原因,還有跨平臺能力如何解決等等。 我身邊愛寫作、閱讀的朋友們都有一個(gè)共同的習(xí)慣: 他們會收藏一些有用的信息。通常,信息被臨時(shí)記錄在備忘錄中。隨著時(shí)間往后推,記錄東西多了,管理起來就比較麻煩。 前段時(shí)間,我琢磨能不能創(chuàng)建一個(gè)完整的流程,自動化處理,折騰半天,雖然搭建成功流程自動化,但實(shí)際使用起來的效果并不理想。 所以,許多平臺廠商、研究機(jī)構(gòu)、創(chuàng)業(yè)公司推出各種單一智能體、多組合智能體、以及機(jī)器人自動化(RPA)等框架項(xiàng)目,但從實(shí)際調(diào)研和行業(yè)反饋看,還要迭代。 不過,這個(gè)框架的總體思路,可以用一個(gè)公式概括: Agent = LLM(大型語言模型)+ Planning(規(guī)劃)+ Feedback(反饋)+ Tool use(工具使用)。
當(dāng)我們做規(guī)劃時(shí),不僅只看當(dāng)前情況,還會考慮記憶、過去的經(jīng)驗(yàn),以前的反思和總結(jié),還有對世界的了解也加入進(jìn)來。 而現(xiàn)在以ChatGPT和其他為首的國內(nèi)大模型,更像一個(gè)固定不變的知識庫,它不能直接和環(huán)境互動,雖然它們可以進(jìn)行邏輯推理、基本規(guī)劃,但不能感知周邊的一切,來進(jìn)行自主反饋。 在我看來,智能體能通過各種方式獲取反饋。 比如: 如果我們把和對話的ChatGPT視為一個(gè)智能體,那么,通過文本框輸入的回復(fù)就是給它的反饋,這種互動后,它能調(diào)整自己的回答,而不是一次次再教育。 還有,更進(jìn)一步地,智能體可以使用外部工具來增強(qiáng)它的功能,解決更復(fù)雜的問題。 例如: 它可以用天氣API來獲取天氣預(yù)報(bào),如果沒有工具,智能體還能學(xué)習(xí)適應(yīng)環(huán)境變化的策略,來應(yīng)對挑戰(zhàn)。 所以,一個(gè)完整AI智能體應(yīng)該能夠主動和環(huán)境互動。而大型語言模型是它潛在能力的核心,未來發(fā)展方向,是創(chuàng)建一個(gè)從頭到尾的系統(tǒng),這將依靠它有效地使用周圍的工具,來實(shí)現(xiàn)更廣泛的應(yīng)用。03? 那么,它為什么很重要?我為什么要深入理解呢? 首先,AI智能體將會引領(lǐng)軟件行業(yè)進(jìn)入一個(gè)新的時(shí)代,我們可以叫它“3D打印時(shí)代”。3D打印技術(shù)普及時(shí),人們很方便地3可以打印出各種“實(shí)體物品”。在所謂的“3D打印時(shí)代”,開發(fā)、定制軟件將變得跟打印文件一樣簡單、快速。公司、個(gè)人想要什么?都根據(jù)自己的需求,很快找到解決方案。有一個(gè)科學(xué)家,名叫Andrej Karpathy,他在特斯拉負(fù)責(zé)開發(fā)、優(yōu)化自動駕駛技術(shù)。他在推特上說過,我們可以利用大數(shù)據(jù)、強(qiáng)大的計(jì)算能力來解決過去需要很多人力和時(shí)間的復(fù)雜問題。這也是為什么那么多人對AutoGPT感興趣的原因。其次,AI智能體能減少軟件的生產(chǎn)成本。你學(xué)過編程沒?以前編程,要寫大量臨時(shí)文件、測試方案,還要長期保存下來,以便不時(shí)之需;現(xiàn)在的編程,完全可以自動化制作,成本幾乎為零;這意味著,原來需要上千萬人才能完成的軟件任務(wù),現(xiàn)在少量的人就可以搞定。以前,我在幾家C輪公司工作過,技術(shù)人員占了一半,因?yàn)橛脩艉芏唷㈤_發(fā)的東西也特別多。不僅要做商城,還要做CRM系統(tǒng),只有用很多人力才能提高效率。現(xiàn)在情況不同,很多基礎(chǔ)的需求直接交給智能體來處理。這就像,我們從大批量生產(chǎn),轉(zhuǎn)變成了小批量快速響應(yīng)的模式。如果把大語言模型看作人類思考的“系統(tǒng)1”,即負(fù)責(zé)快速、直覺的思考,而AI智能體則類似于人類的“系統(tǒng)2”,負(fù)責(zé)慢速、分析性的深入思考。計(jì)算機(jī)專家,Andrej Karpathy曾提到:大模型可以快速產(chǎn)生反饋,但也容易產(chǎn)生誤判。AI智能體目標(biāo)是建立一個(gè)個(gè)小框架,讓LLM循序漸進(jìn)的思考,反而更能做出可靠的決策。我以前在網(wǎng)上搜索學(xué)術(shù)文章時(shí),要分兩步篩選信息:首先,根據(jù)研究領(lǐng)域進(jìn)行初步篩選;然后,根據(jù)第一次搜索結(jié)果,進(jìn)一步篩選出與我期望最相似的文章。這個(gè)過程通常要多次查詢和調(diào)整,耗時(shí)又麻煩。我用RPA后,它按照要求自動篩選,并在第一輪結(jié)果后精準(zhǔn)查找,所以,這就像APP的推薦系統(tǒng),你可以根據(jù)需要,定制自己的智能體。所以,基于大模型的Agent,改變了獲取信息的方式,未來會有更多人有自己的Agent,幫它當(dāng)合作伙伴,你可以想想,如果有個(gè)小助手,你會讓它做什么? 04? 那么,AI Agent有什么不同類型呢? 因?yàn)锳gent技術(shù)還不是完全成熟,所以,Agent平臺也在初期階段,現(xiàn)在一些比較固定的工作流程,或有詳細(xì)標(biāo)準(zhǔn)SOP的程序,都在封閉環(huán)境下進(jìn)行。即便一些比較受歡迎的平臺,它們在API生態(tài)系統(tǒng),工作流程再組合上,還是不夠完善。我盤了一下,AI Agen平臺大致有三類: 一類,面對公眾和非開發(fā)人員,基于知識庫和數(shù)據(jù)庫的簡單聊天機(jī)器人(Chatbot);如“類GPTs”,它提供標(biāo)準(zhǔn)界面、流程。國內(nèi)字節(jié)的扣子(Coze)、阿里的AI助理市場。另一類,面向開發(fā)者的綜合開發(fā)平臺:這類平臺幫助開發(fā)者使用各種API、第三方庫和代碼嵌入,進(jìn)行Agent的流程調(diào)優(yōu)。Coze海外版、百度靈境矩陣全代碼版,阿里、亞馬遜等提供模型托管,支持開發(fā)者開發(fā)應(yīng)用。它們可以能解決復(fù)雜問題、有多個(gè)工作流程安排的復(fù)雜場景在里面。第三類是企業(yè)級開發(fā)平臺:專門給企業(yè)工作流程制作的智能化。比如:TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平臺,以及360的“大模型+企業(yè)知識庫+Agent”的解決方案。基于該框架下又能進(jìn)行行業(yè)結(jié)構(gòu),應(yīng)用場景再次劃分。因?yàn)榇蠹野l(fā)展速度真的很快,所以,從實(shí)際情況來看,首先需要做的是:第一步,豐富通用和特定場景的工作流程。這意味著,要創(chuàng)建一些標(biāo)準(zhǔn)的流程,這樣不同的情況下都能用。第二步,深入地學(xué)習(xí)和積累專業(yè)知識。這樣,第三步,平臺能更好地重復(fù)使用已有的工作流程,也能更靈活地結(jié)合不同的工具。同時(shí),還要探索適合的商業(yè)模式,這樣才能滿足AI時(shí)代的需求。簡單說,就是要搞清楚怎么通過AI Agent賺到錢,同時(shí)確保AI平臺能不斷進(jìn)步,更好地服務(wù)大家,很重要。產(chǎn)品營銷圈,有一個(gè)很重要概念叫做PMF(Product-Market Fit,產(chǎn)品市場匹配度)。如果一個(gè)產(chǎn)品找到它的PMF,就找到了自己的市場立足點(diǎn),開始有了用戶黏性。在AI大模型產(chǎn)品領(lǐng)域里,大模型要找到自己的TPF(Technology Product Fit,技術(shù)產(chǎn)品匹配)。技術(shù)發(fā)展比較快時(shí),AI從業(yè)者,要從技術(shù)、產(chǎn)品和市場三個(gè)角度全面考慮,尋找一個(gè)中間值,三者,完美匹配的時(shí),才是AI Agent解決具體需求,賺到前的高光時(shí)刻。我們不能總說技術(shù)厲害,而忽略市場是否需要。前段時(shí)間,跟一個(gè)老板溝通企業(yè)內(nèi)部流程再造時(shí),就提到該問題,他說:看似很多冗余工作,AI Agent可以解決,但是,AI Agent解決前,總要先有人得先用好他。服裝設(shè)計(jì)公司,面臨一個(gè)重大挑戰(zhàn),批量生產(chǎn)服裝時(shí),要設(shè)計(jì)和制作多個(gè)樣板,這個(gè)過程傳統(tǒng)上完全依賴人工;現(xiàn)在,AI智能體可以介入這一過程,但到底能處理到哪一步呢?精確度足夠高嗎?這些都要進(jìn)一步的探索、測試。所以,國內(nèi)Agent發(fā)展還未達(dá)到其真正潛力,大多只是些簡單的聊天機(jī)器人。缺少反思、規(guī)劃、環(huán)境感知能力,而這些能力,恰巧構(gòu)成高級AI Agent的核心要素。 據(jù)我所知,目前市面有很多agent搭建工具,如果你想進(jìn)一步了解這個(gè)賽道,親自試試,是最快的方法。———— 我開通一個(gè)新專欄叫《AI產(chǎn)品操作手冊》;如果,你對如何將AI轉(zhuǎn)化為先進(jìn)生產(chǎn)力感興趣,歡迎點(diǎn)擊下方圖片訂閱。 里面有理論,有實(shí)操,訂閱后,內(nèi)容每天通過微信服務(wù)號進(jìn)行推送,相當(dāng)于,我?guī)е鴥?nèi)容跟你匯報(bào),歡迎找我聊聊你的工作方法,我也樂意,把經(jīng)驗(yàn)分享出來。
|