我們知道,人類在進化過程中具備了兩方面能力,標志著人類智慧的出現,從而能夠與動物區別開來,成為萬靈之首。一方面是語言作為思維的工具,幫助我們進行推理、組織知識和彼此交流;另一方面是我們的世界觀,人類對周邊環境的感知和認識。
人工智能發展過程中,不斷模仿人類智能,OpenAI GPT、Meta LlaMa、百度文心、阿里通用千問等都屬于大語言模型,體現了在語言、推理、思維等方面的重大突破。另一方面,世界模型則代表了人工智能在模仿人類世界觀方面的努力。
世界模型對于人工智能發展意義重大。世界模型的突破,將意味著機器人文明的開始。世界模型已經成為大語言模型之后的人工智能新前沿。
01
為什么要構建世界模型?
深度學習之父Yann LeCun(楊立昆)是世界模型(World Models)的堅定支持者。楊立昆認為,人類和動物能夠通過觀察,簡單的交互,以及無監督的方式學習世界知識,這蘊含的潛在能力構成了常識的基礎。這種常識能夠讓人類在陌生的環境下完成任務。但是目前的AI,往往只在訓練過的環境中可以有效工作,一旦到陌生環境下往往出現失誤。這表明了人工智能和人類智能存在著巨大的認知鴻溝。
世界模型可以通過模擬人類感知和決策過程,為系統提供預測和適應動態環境的能力,具有彌合人類和機器智能之間認知鴻溝的巨大潛力。世界模型可以為更復雜的自動駕駛等應用場景提供一條實現路徑。
02
什么是世界模型?
當在人工智能中談到世界/World、環境/Environment的時候,通常是為了與智能體/Agent進行區別。強化學習和機器人是研究智能體最多的兩個領域。World Models、World Modeling最早最常出現在機器人領域的論文中。
從定義來看,世界模型是人工智能系統內部構建的一種抽象表示,用于描述、理解和預測外部環境的狀態及其變化。它融合了AI系統從傳感器接收的原始數據(如圖像、聲音、觸覺等),通過復雜的處理和分析,形成對外部世界的全面認知和預測。
在具體實現中,世界模型可以以多種形式存在,如概率模型、物理模型、生成模型等。每種模型都有不同的結構和特性,但其核心目標是通過對歷史數據的學習和理解,形成對未來事件和狀態的預測。
03
世界模型的發展歷程
世界模型的概念最早可以追溯到上世紀六十年代,隨著AI技術的不斷發展,世界模型也經歷了從簡單到復雜、從靜態到動態、從單一到多元的演變過程。
1.早期模型(1960s-1980s)
早期的世界模型多集中在符號主義AI和認知科學中,如情境演算和TOTE(Test-Operate-Test-Exit)模型。這些模型通常以控制論的規則和邏輯為基礎,模擬人類的推理和決策過程,但由于計算能力和數據的限制,它們在處理復雜、動態環境時表現欠佳。
2.概率模型與物理模擬(1990s-2010s)
隨著統計學習方法的興起,概率模型開始應用于世界建模,如馬爾可夫決策過程(MDP)和粒子濾波器。同時,基于物理學的模型如動力學模擬,也在機器人控制和仿真中得到應用。然而,這些模型依然面臨高維度數據和復雜環境下的挑戰。
3.深度學習與生成模型(2010s-至今)
深度學習的突破推動了世界模型的飛躍發展。通過神經網絡,特別是遞歸神經網絡(RNN)、生成對抗網絡(GAN)和變分自編碼器(VAE),AI系統能夠從大量的感知數據中自動學習環境的高維表示。這種方法極大地增強了模型在復雜任務中的適應性和泛化能力,如自動駕駛和游戲AI中的應用。遞歸神經網絡(RNN)的集成尤其具有變革性,標志著向能夠進行時間數據處理的系統邁進,這對預測未來狀態和實現抽象推理至關重要。
2018年,谷歌大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber(他也是 LSTM 的提出者)在論文“世界模型(World Models)”(文末下載)中共同提出:世界模型可以讓人工智能對外部環境的未來狀態進行預測,大幅提高完成任務的效率。該項工作通過利用混合密度網絡(MDN)和RNN,闡明了無監督學習提取和解釋環境數據中固有的空間和時間模式的途徑。此后,關于世界模型的學術論文大量增長,成為AI領域研究熱點。
04
世界模型的核心作用
世界模型的核心作用就是反事實推理/Counterfactual Reasoning。即使對于數據中沒有見過的決策,在世界模型中都能推理出決策的結果。
了解因果推理的同學會很熟悉反事實推理這個詞,在圖靈獎得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯,最下層是“關聯”,也就是今天大部分預測模型主要在做的事;中間層是“干預”,強化學習中的探索就是典型的干預;最上層是“反事實推理”,通過想象回答what if問題。

圖:Judea書中的因果階梯
Judea為反事實推理繪制的示意圖,是科學家在大腦中想象,這與Jurgen在論文中用的示意圖異曲同工。

圖:Jurgen論文中的世界模型示意圖
在人工智能(AI)的廣闊領域中,世界模型作為AI系統對外部世界的內部表示和預測機制,扮演著至關重要的角色。有了世界模型,就可以超越數據,進行反事實推理,回答What If問題。世界模型不僅是AI認知、學習和控制環境的基礎,也是實現更高級別智能任務(如自動駕駛、游戲AI、復雜決策系統等)的關鍵技術之一。
05
世界模型的分類
不同領域場景需要不同類型的世界模型。以下介紹在視頻生成、自動駕駛、通用智能體和機器人領域世界模型的應用情況:
1.視頻生成領域
在視頻生成領域,有多種流行的生成方法,包括GAN、Diffusion擴散模型、自回歸、掩碼建模等,從下圖的時間軸研究進展來看,進入2024年,基于擴散模型的方法占據了主導地位,Sora也是采用了擴散模型作為基礎生成方法。


(a)GAN (b)擴散模型 (c)自回歸(d)掩碼建模
2.自動駕駛領域
在自動駕駛領域,世界模型在最近兩年也是常見詞,從下圖中可以看出,2023和2024年集中出現了一批基于世界模型的端到端模型、2D/3D生成方法:

3.通用智能體和機器人領域
同時,在通用智能體和機器人領域,基于世界模型的相關研究也非常豐富,涉及遞歸狀態空間模型RSSM、Transformer、聯合嵌入預測架構JEPA、Diffusion等模型。其中,JEPA是楊立昆力推的算法,他也多次在演講中表示對世界模型潛力的極大關注,并預言世界模型將會取代自回歸模型成為新一代智能系統的基礎。

06
世界模型的架構
世界模型的架構旨在模仿人腦的連貫思維和決策過程。基于世界模型,楊立昆提出了自主智能系統的體系架構,包含6個核心模塊:

1. 配置器(Configurator)模塊:
配置器是協調指揮中心,負責協調、配置和執行其他模塊。
2.短期記憶(Short Term Memory)模塊:
負責跟蹤當前和預測的世界狀態以及相關成本。與人類海馬體類似,記憶模塊可用于記錄和管理過去、現在和預測的世界狀態及其相關成本或回報。它通過回放最近的經歷來支持短期和長期記憶功能,這一過程通過將過去的見解融入未來的決策來增強學習和適應。該模塊綜合和保留關鍵信息的能力對于深入了解一段時間內的環境動態至關重要。
3.感知(Perception)模塊
感知模塊類似于人類的感官,由配置器調用,負責感知世界狀態和提取任務相關信息。它采用先進的傳感器和編碼器模塊,如可變自動編碼器(VAE)、Masked自動編碼器(MAE)和離散自動編碼器(DAE),將環境輸入(圖像、視頻、文本、控制命令)處理和壓縮為更易于管理的格式。該模塊的有效性對于準確感知復雜動態環境至關重要,有助于詳細了解模型的后續預測和決策。
4.世界模型(World Model)模塊
世界模型模塊主要的職責是估計Perception未提供的關于世界狀態的缺失信息,并預測合理的未來世界狀態,比如預測由 Actor 模塊提出的一系列動作所導致的未來世界狀態。通過模擬潛在的未來場景,該模塊使系統能夠主動準備和調整其策略,反映人類認知中的預測性和適應性思維過程。
5.角色(Actor)模塊
角色模塊負責尋找最優的行動方案。該組件直接負責通過動作與環境進行交互。它評估當前狀態和世界模型提供的預測,以確定旨在實現特定目標的最佳行動順序,例如最小化成本或最大化回報。該模塊的復雜性在于它能夠集成感官數據、記憶和預測見解,從而做出明智的戰略決策,應對現實世界場景的復雜性。
6.成本(Cost)模塊
成本模塊負責計算智能體的不適值(discomfort),目標是最小化內在成本的未來值。
這些組成部分共同形成了一個強大的框架,使世界模型能夠模擬類似于人類的認知過程和決策。通過集成這些模塊,世界模型實現了對其環境的全面和預測性理解,這對于開發能夠以前所未有的復雜度在現實世界中導航和交互的自主系統至關重要。
07
世界模型的應用場景
1.強化學習
在強化學習領域,世界模型被廣泛應用于提高學習效率和泛化能力。通過建立基于模型的方法,AI系統可以在虛擬環境中進行大量試錯和學習,而無需直接在實際環境中操作。這不僅可以減少物理資源的消耗,還可以加速學習過程,提高算法的收斂速度和穩定性。
例如,Model-Based Reinforcement Learning(MBRL)方法通過訓練一個世界模型來模擬環境的動態,然后在該模型上進行策略優化,從而減少對真實環境的直接操作。這種方法在復雜系統中,如機器人控制和自主導航中表現出色。
2.計算機視覺
在計算機視覺領域,世界模型被用于構建基于生成對抗網絡(GAN)的圖像生成和理解模型。通過訓練GAN模型,AI系統能夠生成高質量的圖像樣本,并學習圖像中的結構和特征表示。這些表示可以用于后續的圖像識別、分類、分割等任務,提高視覺系統的性能。
此外,世界模型還被應用于3D重建和場景理解中,通過對多視角圖像的聯合分析,生成對真實世界的三維表示,如SLAM(Simultaneous Localization and Mapping)技術在機器人視覺導航中的應用。
3.自動駕駛
自動駕駛系統需要構建一個復雜而精確的世界模型,以應對復雜、動態、不確定的駕駛環境。這個世界模型需要包括道路結構、交通規則、車輛行為、行人動態等多種信息,并能夠實時更新和預測。通過世界模型的支持,自動駕駛系統能夠做出更安全、更合理的駕駛決策,提高駕駛的舒適性和合法性。
例如,Tesla的自動駕駛系統通過多傳感器融合(如攝像頭、雷達、激光雷達),構建實時的3D世界模型,用于路徑規劃和避障。這種世界模型能夠在動態環境下,預測其他道路使用者的行為,提前采取應對措施。
4.游戲與影視制作
在游戲和影視制作領域,世界模型被用于生成可交互的虛擬環境和角色。例如,DeepMind團隊發布的Genie模型就是一個基于世界模型的交互式環境生成模型,能夠生成具有豐富細節和動態變化的游戲關卡或影視場景。用戶可以對這些場景進行逐幀控制或修改,實現高度自定義的創作體驗。
這些世界模型不僅提高了內容生成的自動化程度,還能夠通過用戶的交互反饋不斷優化和進化,使虛擬世界更具沉浸感和真實性。
08
世界模型的優勢與挑戰
世界模型已經在多個領域取得一定進展,但距離全面突破還有一些距離,面臨多個方面的挑戰。
1.優勢
有一定泛化能力:世界模型能夠從有限的感知信息中推測出全局狀態,并在未知環境中做出合理預測。這種能力對于AI系統在復雜、不確定環境中的表現至關重要。
增強決策質量:通過預測未來的環境變化,世界模型為AI提供了更為詳盡的決策依據,使AI能夠做出更加優化的選擇,尤其在多步驟、多目標決策任務中,表現尤為突出。
加速學習過程:在強化學習中,世界模型能夠減少實際環境中的探索需求,通過在虛擬模型中進行模擬和訓練,大幅降低時間成本和資源消耗,提高學習效率。
2.挑戰
建模復雜度高:隨著環境復雜度的增加,世界模型需要處理的信息量和狀態空間也急劇膨脹。這對模型的表示能力和計算資源提出了更高要求,特別是在實時系統中,如何平衡模型的精度和計算效率成為一大挑戰。
數據依賴性強:世界模型的構建高度依賴于高質量的感知數據。然而,在實際應用中,傳感器數據可能存在噪聲、缺失甚至錯誤,這將直接影響世界模型的準確性和可靠性。
泛化能力有限:雖然世界模型在特定環境中的表現優異,但在遷移到新的環境或任務時,其泛化能力可能受到限制。特別是當新環境與訓練環境存在較大差異時,模型的預測效果可能顯著下降。
09
世界模型的未來展望
隨著AI技術的不斷進步,世界模型將在越來越多的領域中扮演關鍵角色。未來的發展方向包括:
多模態融合:通過融合視覺、聽覺、觸覺等多種感知信息,構建更為豐富和精確的世界模型,使AI系統能夠在更加多樣化的環境中進行操作和決策。
自適應模型:開發能夠動態調整和進化的世界模型,使其能夠更好地適應環境的變化和任務的轉移,從而提高模型的泛化能力和適應性。
高效計算:探索新的算法和硬件架構,以提高世界模型的計算效率,使其能夠在實時、嵌入式系統中運行,同時保持高精度的環境表示和預測能力。
人機協作:通過將世界模型與人類的經驗和知識結合,開發出能夠與人類協同工作的AI系統。這種系統不僅可以幫助人類在復雜環境中做出更好的決策,還能夠從人類的反饋中不斷學習和優化。