OpenAI在AI Agent方面的一步步布局，越來越清晰

黃爸爸好 2023-11-05 發布于上海

展開全文

智元宇宙是一家致力于普及AIGC技術與應用的新媒體平臺。我們為您提供最新的AIGC行業資訊，精選優質企業應用案例和實用方法，旨在幫助企業和個人迅速掌握人工智能應用技巧。我們的愿景是讓人工智能成為普惠企業的基礎設施，實現無處不在的智能化服務。

OpenAI近日針對ChatGPT Plus用戶分批推送了更新，并發布了全新功能，提升了AI交互體驗。此次更新主要包含兩個新特性：

一、豐富文檔對話與分析功能。該功能支持上傳更多類型的文檔進行對話與分析，例如PDF等多模態文檔，進一步強化了AI處理復雜任務的能力。

二、GPT-4 All Tools功能。通過該功能，ChatGPT可以在一次對話中無縫平滑地自動使用工具，包括目前已有的Web搜索、高級數據分析（原代碼解釋器）、Dall·E3，以及最新的GPT-4V視覺智能。此前，用戶需要手工選擇后使用這些工具，而本次更新后，ChatGPT會自動選擇適當的工具來完成任務，無需人工切換，大大提升了使用便捷性和效率。這一更新實現了一站式的AI任務處理，用戶無需關注背后的工具，使AI交互更加自然流暢。

此次更新雖然看似常規升級，實則是一次重要的能力突破。尤其是GPT-4 All Tools功能，它讓使用者能夠更簡單地通過GPT來完成任務。這種“一站式”的處理方式是當前火熱的一體化AI體（AI Agent）所必須實現的基本能力之一。

此次更新也可能是OpenAI邁向AI Agent領域的一次嘗試。如果未來OpenAI將這個能力擴展到插件，那么有ChatGPT生態內的眾多第三方開發商支持的龐大插件庫，將會帶來更多的AI Agent應用可能性。

從這次更新可以看出，OpenAI不會滿足于僅作為一個基礎的大模型提供商。有著更豐富應用場景的AI Agent領域或許更能展示其強大的AI價值。

GPT-4 All Tools功能

GPT4 Plus用戶將成為本次更新首批受益者，體驗到一系列便利的新功能。其中包括與PDF文檔進行對話的功能，此前用戶可能需要購買類似chatPDF等創業公司的產品來實現這一需求，而現在只需通過chatGPT即可輕松實現。同時，GPT-4還能幫助用戶總結PDF論文核心內容、生成論文摘要，對文檔進行修改潤色與擴寫，以及智能搜索所關注的文檔區域。

值得一提的是，本次更新還實現了自動組合使用工具的功能，使得ChatGPT能夠協作完成一項任務。具體來說，ChatGPT能夠自動使用最新的多模態視覺智能GPT4-V與DALL·E3，根據用戶上傳的圖片生成新的圖片，并具備Image-Image的提示能力。

例如，用戶上傳一張圖片后，ChatGPT可以創作一個皮克斯風格的動畫圖片，或者根據提供的滑板圖片創作拿著這個滑板的小熊圖片，甚至可以將兩張圖片中的形象進行合并。

此外，ChatGPT還能自動組合Bing搜索與Dall·E3創作，查詢某個地方的天氣狀態并根據結果創作圖片。

除了以上功能外，ChatGPT還能自動組合GPT4-V、Dall·E3、高級數據分析工具來識別用戶提供的圖片中的食物，并根據圖片信息生成一個包含名稱、卡路里、脂肪含量等信息的表格。

從All Tools的角度來看，本次更新展示了AI Agent未來的發展方向。AI Agent領域已經得到了OpenAI、Meta等AI領頭企業以及眾多小型初創型企業和科技極客的空前關注。

越來越多的人認識到，大模型只有在真正的應用層面走進千家萬戶才能展示其真正的價值，而AI Agent就是最好的應用形式。因此，AI Agent或將成為實現AGI（通用人工智能）必經之路。

然而，隨著OpenAI等大型企業不斷推出新的功能，類似ChatPDF這樣圍繞ChatGPT展開的“外掛”型產品的小型創業企業可能會面臨生死存亡的問題。這也引發了人們對于AI領域創業公司的擔憂。不過，從另一個角度看，這種競爭將推動整個行業不斷向前發展，為消費者帶來更多便利和創新。

OpenAI在AI Agent方面的布局

ChatGPT到AI Agent方面的滲透顯然正在逐步展現。自GPT4發布以來，一系列重要的更新進一步加強了其在這個領域的地位：

Plugin（插件）功能的引入：通過插件，ChatGPT能更靈活地與外部世界進行交互，從而更有效地完成各種任務。
Code Interpreter（代碼解釋器）的升級：從簡單的代碼解釋器到高級數據分析工具，ChatGPT現在可以接受人類數據或文件，并自主編寫代碼來完成分析與處理任務。
直接Web Browsing（聯網）功能：不再依賴第三方插件，ChatGPT現在能夠直接連接互聯網，獲取所需信息。
ChatGPT-4V（多模態）功能的增強：ChatGPT-4V的推出為其增加了視覺智能，使其不再局限于文字處理，還能識別、理解、分析和預測圖片信息。
All Tools（一體化工具）的集成：通過All Tools，ChatGPT能夠選擇和使用各種工具，更加靈活地完成復雜任務。

這一系列更新使得ChatGPT逐漸從一個單純的語言模型發展為一個擁有眼睛、耳朵和四肢的智能體，它能夠感知世界、使用工具，并逐漸成長為一個超級自主的智能體。

對于未來，我們有理由期待OpenAI將繼續加強和擴展這些功能，包括但不限于：

進一步提升GPT-4V的能力，支持更多模態的混合輸入輸出。
在特定條件下開放所有插件功能，使ChatGPT能夠無需人工干預地自主完成復雜任務。
為企業用戶推出專屬Agent功能，如私有數據管理、RAG增強等。
結合視覺智能和瀏覽器插件，實現Web訪問的自主導航、瀏覽和操作。

未來這些功能有可能一步步實現，對于創業者來說，如果他們的產品定位與OpenAI的未來規劃相重合，那么他們需要密切關注這個行業的巨頭，確保自己的策略與規劃與之相適應，以避免潛在的風險和挑戰。

AI Agent的未來生態

未來的人工智能市場應當呈現一個多元化的生態環境，其中各種應用與服務商百花齊放，而不是由少數幾家巨頭集中控制。構建這樣一個多元化的生態環境，其意義和價值都遠超過單一的應用壟斷。歷史上，Apple和Google等科技巨頭的發展歷程已經證明了這一點。

對于眾多正在或即將投入AI Agent領域的創業者來說，機會仍舊豐富。若將基礎大模型比作操作系統，那么在這個系統之上，眾多開發者可以針對不同行業和領域提煉出AI的真實應用場景，創造出有生命力的產品。從這個角度看，基礎大模型的供應商并不具備先天優勢，甚至在某些B2B領域，它們可能還處于劣勢。

對于專注于個人AI助理的通用Agent領域的創業者，優化的方向包括：提升使用體驗、穩定模型輸出、增強任務規劃能力，以及支持靈活的自定義與Agent組裝。技術上，可以通過預設的AI組件編排自定義Agent，根據任務場景微調大模型，或者獲取獨有的第三方API工具來形成技術壁壘。

針對特定領域、場景、任務和使用者，創業者可以深入優化和構建Agent。例如，針對復雜的垂直領域應用場景（如基于Agent的虛擬游戲世界、多Agent協作軟件開發等），或者面向特定使用群體（如法律、財務工作人員）開發AI助手，這些都可能形成獨特的競爭優勢。

在B2B領域，AI Agent的應用與消費領域有著本質的不同，其要求更高的數據安全性和對私有模型的需求。此外，企業還希望AI Agent能幫助完成自動化任務，如營銷、咨詢、服務以及經營數據分析等。因此，在這個領域，除了技術人員外，還需要有業務專家來共同發掘AI Agent的應用場景。對于初創企業而言，這是一個機會，可以深入到某個具體的企業應用領域，構建特定的算法、模型與服務，建立起獨特的優勢。