“自動駕駛未來已來?”
當視覺(Vision)、語言(Language)和行動(Action)三大能力在一個模型中融合,自動駕駛的未來將走向何方?
近日,來自麥吉爾大學、清華大學、小米公司和威斯康辛麥迪遜的研究團隊聯合發布了全球首篇針對自動駕駛領域的視覺-語言-行動(Vision-Language-Action, VLA)模型的全面綜述。這篇題為《A Survey on Vision-Language-Action Models for Autonomous Driving》的論文,系統性地梳理了VLA在自動駕駛(VLA4AD)領域的前沿進展,深入剖析了其架構演進、核心技術與未來挑戰。
論文GitHub倉庫已同步上線,收錄了超過20個代表性模型和相關數據集。
論文鏈接 : https:///abs/2506.24044
GitHub鏈接:
https://github.com/JohnsonJiang1996/Awesome-VLA4AD
從“端到端”到“VLA”:自動駕駛范式的演進 自動駕駛技術的發展經歷了從模塊化到一體化的演進。該綜述將最新的自動駕駛技術發展總結為三大核心范式:
端到端自動駕駛 (End-to-End AD): 這種模式將傳感器輸入直接映射到駕駛動作,省去了復雜的中間模塊。雖然高效,但其“黑箱”特性導致可解釋性差,難以處理需要高級推理的“長尾”場景。
架構: 環境信息輸入 → 端到端網絡 → 駕駛動作。 用于自動駕駛的視覺語言模型 (VLMs for AD): 隨著大語言模型(LLM)的興起,研究者開始將語言的理解和推理能力引入自動駕駛。VLM能夠解釋復雜的交通場景、回答相關問題,顯著提升了系統的可解釋性和對罕見事件的泛化能力。然而,這些模型主要停留在“感知和理解”,語言輸出與車輛的實際控制脫節,存在“行動鴻溝”。
架構: 環境信息輸入 → VLM → 推理鏈/多任務 → 輸出(非直接控制)。 用于自動駕駛的視覺-語言-行動模型 (VLA for AD): VLA模型是當前最前沿的范式。它在一個統一的策略中融合了視覺感知、語言理解和動作執行。VLA旨在打造能夠理解高級指令、推理復雜場景并自主決策的智能車輛。VLA模型不僅能遵循“讓行救護車”這類自然語言指令,還能用語言解釋其決策原因,實現了感知、推理和行動的閉環。
架構: 環境信息輸入 → 多模態編碼器 → LLM/VLM → 動作解碼器 → 駕駛動作。 圖1:自動駕駛范式對比。(a) 端到端模型缺乏可解釋性。(b) VLM模型以感知為中心。(c) VLA模型整合了感知、推理與行動。 VLA4AD的架構范式 一個典型的VLA4AD模型架構由“輸入-處理-輸出”三部分構成,旨在無縫整合環境感知、高級指令理解與最終的車輛控制。
圖2:VLA4AD架構概覽,整合了視覺、語言和行動模塊。 多模態輸入與語言指令 (Multimodal Inputs and Language Commands) VLA4AD模型依賴豐富的多模態數據來理解外部環境與駕駛員意圖。
視覺數據 (Visual Data): 視覺是自動駕駛系統的核心輸入。技術已從早期的單前視攝像頭發展到如今的多攝像頭環視系統。原始圖像可以被直接處理,或轉換為鳥瞰圖(BEV)等結構化表示,以輔助空間推理。 其他傳感器數據 (Other Sensor Data): 為增強空間感知能力,系統還融合了多種傳感器。包括用于精確3D結構的激光雷達(LiDAR)、用于速度估計的雷達(RADAR)、用于運動追蹤的慣性測量單元(IMU)以及用于全局定位的GPS。方向盤轉角、油門等本體感知數據也愈發重要。 語言輸入 (Language Inputs): 語言輸入的形式日趨豐富,其演進路徑如下: 任務級指令:例如,用自然語言解析交通規則或高階目標。 對話式推理:最新的研究已支持多輪對話和基于思維鏈(CoT)的復雜推理,甚至包括語音指令輸入。 核心架構模塊 (Core Architectural Modules) VLA4AD的核心架構包含三大模塊,共同構成一個完整的處理流程。
視覺編碼器 (Vision Encoder): 該模塊負責將原始圖像和傳感器數據轉換為潛在表征。通常使用如DINOv2或CLIP等大型自監督模型作為骨干網絡。許多系統采用BEV投影技術,或通過點云編碼器(如PointVLA)來融合3D信息。 語言處理器 (Language Processor): 該模塊使用預訓練的語言模型(如LLaMA2或GPT系列)來處理自然語言指令。通過指令微調或LoRA等輕量化微調策略,可以高效地讓模型適應自動駕駛領域的特定知識。 動作解碼器 (Action Decoder): 該模塊負責生成最終的控制輸出。其實現方式主要有三種: 自回歸令牌器:將連續的軌跡點或離散的動作(如“加速”、“左轉”)作為Token,并依次生成。 擴散模型頭 (Diffusion heads):基于融合后的特征,通過采樣生成連續的控制信號。 分層控制器:由一個高階的語言規劃器生成子目標(如“超車”),再由一個低階的PID或MPC控制器來執行具體軌跡。 駕駛輸出 (Driving Outputs) VLA模型的輸出形式反映了其抽象層次和操作目標,已從低階控制演進為高階規劃。
低階動作 (Low-Level Actions): 一部分VLA4AD系統直接預測原始控制信號,如方向盤轉角、油門和剎車。這種方式優點是可以輸出更精細的控制,但對感知誤差敏感,且缺乏長遠規劃能力,并且不同車型的可拓展性較差。 軌跡規劃 (Trajectory Planning): 另一些VLA自動駕駛研究輸出預測軌跡或路徑點。這種方式具有更好的可解釋性和拓展能力s,可以由下游的MPC等規劃器靈活執行。它使得VLA模型能夠進行更長時程的推理,并更有效地整合多模態信息。 VLA模型的四大發展階段與代表作橫向對比 該綜述創新性地將VLA4AD的發展劃分為四個階段。這四個階段清晰地展示了語言在自動駕駛系統中角色和能力的演進:從一個被動的“解釋者”,逐步成長為主動的“規劃者”,最終演變為具備高級推理能力的“決策核心”。
圖3:VLA模型演進歷程。從左至右依次為:VLM作為解釋器、模塊化VLA、端到端VLA、以及推理增強的VLA。 階段一:語言模型作為解釋器 (Pre-VLA: Language Model as Explainer) 在最初的探索階段,語言模型被用作一個被動的、用于描述的工具,其核心目標是增強自動駕駛系統的可解釋性。
典型架構: 這一階段的系統通常采用一個凍結的視覺模型(如CLIP)和一個LLM解碼器。其流程是,系統感知到駕駛場景后,由語言模型生成自然語言描述,但這些描述并不直接參與車輛控制。 代表工作: DriveGPT-4
是一個典型例子,它可以接收來自前置攝像頭的單張圖像,然后生成一個高階的操縱標簽(如“減速”、“左轉”)或一段場景描述。 核心作用: 這些文本輸出有助于人類理解感知系統“看到”了什么或“打算”做什么,從而提升了系統的透明度。 延遲問題:為每一幀圖像生成長描述會引入顯著的計算延遲。 效率低下:通用的視覺編碼器會浪費算力在與駕駛不相關的圖像細節上。 為了解決這些問題,研究者們提出了優化方案,如 TS-VLM
通過文本引導的注意力池化來聚焦關鍵區域,而 DynRsl-VLM
則通過動態調整輸入分辨率來平衡速度與精度。盡管效率有所提升,但一個根本性的“語義鴻溝”依然存在:描述場景不等于生成精確的駕駛指令。 階段二:模塊化VLA模型 (Modular VLA Models for AD) 隨著研究的深入,語言的角色從被動的場景描述者,演變為模塊化架構中主動的規劃組件。語言的輸入和輸出開始直接為規劃決策提供信息。
核心思想: 語言不再僅僅是“評論員”,而是成為了規劃過程中的一個可解釋的中間環節,將高級指令轉化為車輛可執行的計劃。 OpenDriveVLA 融合攝像頭、激光雷達和文本路徑指令(如“在教堂右轉”),生成人類可讀的中間路徑點(如“20米后右轉,然后直行”),這些路徑點隨后被轉換為連續的軌跡。 CoVLA-Agent 能夠將一個代表動作的Token(如“左轉”)通過一個緊湊的MLP直接映射到一條對應的軌跡上。 DriveMoE 采用混合專家(Mixture-of-Experts)架構,利用語言線索根據當前場景動態選擇最合適的子規劃器,例如“超車專家”或“啟停專家”。 SafeAuto 引入了以形式邏輯表達的符號化交通規則,用以驗證或否決由語言驅動的計劃,從而確保行為的安全性。 RAG-Driver 提出了一種檢索增強的規劃機制,通過從記憶庫中檢索相似的歷史駕駛案例,來指導在模糊或長尾場景下的決策。 局限性: 盡管這些方法顯著縮小了語言指令和車輛動作之間的語義差距,但它們普遍依賴于多階段的處理流程(感知→語言規劃→控制),這不僅引入了延遲,還在每個模塊的邊界處帶來了級聯錯誤的風險。 階段三:統一的端到端VLA模型 (Unified End-to-End VLA Models for AD) 受益于大型多模態基礎模型的出現,研究者們開始構建完全統一的網絡,能夠在一個單一的前向傳播中,將傳感器輸入(以及可選的文本指令)直接映射到軌跡或控制信號。
核心思想: 在一個單一、可微分的系統中整合感知、語言理解和動作生成。 EMMA 在Waymo數據集上訓練了一個龐大的VLM,使其能夠聯合執行目標檢測和運動規劃,通過學習一個共享的表征,實現了比分離組件更好的閉環性能。 SimLingo, LMDrive 和 CarLLaVA 基于LLaVA模型,并在CARLA模擬器中進行微調以遵循語言指令駕駛。它們引入了一種名為“行動構想”(action dreaming)的技術:模型通過改變語言指令來想象同一場景下的不同駕駛結果,從而強制建立了語言命令和最終軌跡之間的緊密耦合。 ADriver-I 利用生成式視頻模型,學習了一個潛在世界模型,該模型能通過擴散(diffusion)技術預測給定動作后的未來攝像頭畫面,從而通過“想象”動作的后果來進行規劃。 DiffVLA 結合了稀疏(路徑點)和密集(占據柵格)的擴散預測,以文本場景描述為條件生成軌跡,有效地從一系列合理的安全操縱中進行采樣。 局限性: 這些端到端模型雖然反應靈敏,在感覺運動映射方面表現出色,但一個新的瓶頸也隨之出現:它們在長時程規劃(例如,提前很遠或考慮復雜應急情況)和提供細粒度決策解釋方面仍然存在困難。 階段四:推理增強的VLA模型 (Reasoning-Augmented VLA Models for AD) 這是最新的發展浪潮,它將VLM/LLM置于控制環路的核心,使模型超越了簡單的規劃條件,朝著長時程推理、記憶和交互性的方向發展。
核心思想: 系統不再僅僅是對傳感器輸入的反應,而是在輸出動作之前,能夠進行解釋、預測和長時程的推理。 ORION 將一個存儲了數分鐘觀察和動作歷史的Transformer記憶模塊(QT-Former)與一個LLM相結合。該LLM負責總結這段歷史,并輸出下一段軌跡和一個相應的自然語言解釋。 Impromptu VLA 將思維鏈(Chain-of-Thought, CoT)與行動對齊。該模型在8萬個帶有專家推理步驟標注的極端場景(corner-case)片段上進行訓練,使其學會在行動之前先用語言表達其決策路徑,在零樣本車輛任務中達到了業界頂尖水平(state-of-the-art)。 AutoVLA 在一個單一的自回歸Transformer中融合了CoT推理和軌跡規劃。該模型將連續的路徑點令牌化為離散的“駕駛令牌”,在nuPlan和CARLA的閉環測試中取得了頂尖的成功率。 未來方向與新挑戰: 這些系統預示了未來可對話的自動駕駛汽車的到來,它們能實時口頭解釋自己的行為。然而,新的挑戰也隨之浮現:如何高效索引城市規模的記憶庫,如何將LLM的復雜推理控制在30Hz的控制循環內,以及如何對這種由語言調節的策略進行形式化驗證。 部分代表性VLA4AD模型(2023-2025) 該綜述提供了一個詳細的表格,對比了各個模型的輸入、輸出、所用數據集和核心貢獻。
表1:VLA4AD的代表模型的結構和特點。 數據集與基準:VLA4AD研究的基石 高質量、多樣化且帶有豐富標注的數據集是推動VLA4AD發展的核心燃料。該綜述對當前主流的數據集和基準測試進行了系統梳理,這些資源為模型的訓練、評估和比較提供了堅實的基礎。
表2:VLA4AD領域的主流數據集與基準測試概覽。 BDD100K / BDD-X: BDD100K提供了10萬個來自美國的真實、多樣化的駕駛視頻。其子集BDD-X(約7千個片段)更進一步,為視頻內容提供了與時間對齊的人類駕駛員的文本解釋(Rationale),例如“因為有行人正在過馬路所以減速”。這為訓練和評估模型的解釋能力提供了寶貴的“標準答案”,被 CoVLA-Agent
和 SafeAuto
等模型所采用。 nuScenes: 這是一個被廣泛使用的真實世界數據集,包含1000個在波士頓和新加坡采集的駕駛場景,每個場景時長20秒。它提供了6個攝像頭的環視圖像、激光雷達和毫米波雷達數據,并帶有完整的3D標注。盡管nuScenes本身不包含語言標注,但它豐富的傳感器數據使其成為VLA4AD模型進行綜合評估的重要平臺。 Bench2Drive: 這是一個基于CARLA模擬器的閉環駕駛基準測試。它包含44種不同類型的場景、220條駕駛路線和一個擁有200萬幀的訓練集。其核心特色在于,它的評估指標能夠精準分離并測試車輛的特定駕駛技能,如無保護左轉、被車輛切入(cut-in)等。 DriveMoE
模型通過其專門化的混合專家架構在該基準的排行榜上名列前茅。 Reason2Drive: 該數據集包含60萬個視頻-文本對,數據來源于nuScenes、Waymo等。其最大特點是提供了思維鏈(Chain-of-Thought, CoT)風格的問答標注,這些問答覆蓋了從“感知”到“預測”再到“行動”的完整推理過程。它還引入了一個“一致性”指標,用于懲罰那些在多步推理中邏輯不連貫的回答。 DriveLM-Data: 此數據集專注于場景的條件推理能力,提供了基于nuScenes和CARLA場景的圖結構化問答數據(共計3.4萬個場景圖)。 Impromptu VLA: 這是一個專門為“犄角旮旯”(corner-case)場景打造的數據集,包含了從8個公開數據集中精心篩選出的8萬個駕駛片段。這些場景覆蓋了密集人群、救護車、惡劣天氣等非常規交通狀況。每個片段都配有專家駕駛軌跡、高級指令、豐富的場景描述以及帶時間戳的問答對。該項目提供了一個開放的評估服務器,研究表明,使用該數據集進行訓練能夠顯著提升模型在閉環測試中的安全性。 NuInteract: 作為nuScenes的擴展,NuInteract為1000個多視角場景增添了密集的文本描述和與激光雷達真值緊密關聯的多輪3D問答對。它有力地支持了需要跨多個攝像頭進行綜合理解的視覺問答(VQA)和3D推理任務。 DriveAction: 這是一個由用戶貢獻的真實世界基準,包含2600個駕駛場景和1.62萬個帶動作標簽的視覺語言問答對。它覆蓋了廣泛的“野生”駕駛情境,并提供了獨特的評估協議,該協議基于人類偏好的駕駛決策來為VLA模型打分,填補了傳統感知評估套件的空白。 總結來說, 目前的VLA4AD研究已經擁有了一個覆蓋全面的數據集生態系統: BDD-X
和 nuScenes
提供了大規模、多傳感器的真實世界數據; Bench2Drive
和 Impromptu VLA
則注入了對安全至關重要的邊緣和角落案例;而 Reason2Drive
、 DriveLM
、 NuInteract
和 DriveAction
提供了進行細粒度推理和對齊人類行為所需的結構化語言數據。充分利用這些互補的資源,對于訓練和評估下一代VLA4AD模型至關重要。
挑戰與未來展望:VLA自動駕駛的機遇與荊棘 盡管VLA4AD取得了顯著進展,但距離大規模實際部署仍面臨諸多挑戰。該綜述詳細剖析了當前面臨的核心難題,并為下一階段的研究勾勒出清晰的藍圖。
六大開放性挑戰:通往大規模部署的必經之路 魯棒性與可靠性 (Robustness & Reliability)
新的失效模式: 語言模型的引入開啟了新的故障可能,例如模型可能會“幻覺”出不存在的危險,或錯誤地解析人類的口頭俚語指令(如“floor it”,意為“踩滿油門”)。 環境與語言噪聲: 模型必須在惡劣天氣(如雨、雪、眩光)導致的傳感器數據損壞,以及充滿噪聲的語言指令下保持穩定。 安全驗證的缺失: 雖然像 SafeAuto
模型那樣引入基于邏輯的安全否決機制是第一步,但對語言控制策略進行形式化驗證,以及實現“社會合規性”的駕駛策略,在很大程度上仍是未解難題。 實時性能 (Real-time Performance)
模型結構優化:采用像 TS-VLM
那樣的令牌削減設計,或像 DriveMoE
那樣的稀疏混合專家(MoE)路由架構來減少推理時的計算量。 事件驅動計算:僅在場景發生新變化時才激活計算量大的推理模塊。 模型壓縮:通過硬件感知的量化技術,或知識蒸餾將大型模型壓縮成一個部署在車端的“微型VLA”。 計算瓶頸: 在車載計算單元上,以每秒30幀(≥30Hz)或更高的頻率運行一個大型視覺Transformer加上一個LLM是極其困難的。 數據與標注瓶頸 (Data & Annotation Bottlenecks)
三模態數據稀缺: 同時包含(圖像+控制+語言)三種模態的監督數據非常稀少且收集成本高昂。例如, Impromptu VLA
數據集就需要手動標注8萬個駕駛片段。 合成數據的局限: 盡管 SimLingo
等項目利用合成數據增強了模型訓練,但現有數據集在非英語方言、交通俚語和具有法律效力的專業術語方面的覆蓋仍然非常有限。 多模態對齊 (Multimodal Alignment)
以攝像頭為中心: 當前的VLA研究工作仍然是以攝像頭為中心的,對于激光雷達(LiDAR)、毫米波雷達(RADAR)、高精地圖(HD-maps)以及車輛時序狀態等信息的融合還處在初級階段。 融合技術不成熟: 雖然研究者們探索了點云的BEV投影、3D令牌適配器、用語言總結歷史的 ORION
模型以及檢索文本化地圖規則的 RAG-Driver
模型,但一個有原則的、能在時間上保持一致性的異構多模態數據融合框架仍未出現。 多智能體社會復雜性 (Multi-agent Social Complexity)
協作難題: 將VLA的應用場景從簡單的雙車協作擴展到密集的城市交通,會立刻引發關于通信協議、信任和網絡安全等一系列問題。 “交通語言”的缺失: 車輛之間應如何使用一種既受約束又足夠靈活的“交通語言”(例如“我讓你先行”、“前方有障礙物”)來交換意圖,這是一個開放性問題。 安全與信任: 如何進行身份驗證以防范惡意信息,如何通過加密的V2V通信保證安全,以及如何讓車輛理解人類的駕駛手勢等,都還處在早期研究階段。 領域自適應與評估 (Domain Adaptation & Evaluation)
泛化能力不足: 從模擬器到真實世界(Sim-to-real)的有效遷移、在不同國家和地區間的泛化能力,以及在不發生“災難性遺忘”的前提下進行持續學習,這些都是懸而未決的問題。 評估標準缺失: 現有的社區基準(如 Bench2Drive
)僅覆蓋了長尾場景的一小部分。行業亟需一個統一的、由監管機構認可的“AI駕照考試”,該標準不僅要評估車輛的控制能力,還要評估其決策解釋的質量。 五大未來方向:勾勒下一代自動駕駛藍圖 基礎駕駛大模型 (Foundation-scale Driving Models)
宏偉愿景: 構建一個GPT風格的“駕駛骨干”基礎模型。該模型通過在海量的多傳感器數據(行車記錄儀、激光雷達、高精地圖)和文本化交通規則上進行自監督訓練而得。 應用模式: 未來,汽車制造商或開發者只需通過提示工程(Prompting)或低秩適應(LoRA)等技術,用少量數據就能對這個基礎模型進行微調,以適應特定的下游任務,類似于 SimLingo
/ CarLLAVA
的實現方式。 神經-符號安全內核 (Neuro-symbolic Safety Kernels)
彌合差距: 純粹的端到端神經網絡難以提供絕對的安全保證。未來的趨勢是將神經網絡的靈活性與符號邏輯的可驗證性相結合。 實現路徑: 讓一個VLA模型輸出一個結構化的行動計劃(或思維鏈CoT),然后由一個符號驗證器來執行這個計劃。這就像給VLA的“大腦”裝上一個“法律顧問”,確保其每個決策都既智能又合規。 SafeAuto
和 ORION
等模型已經展現了這種混合架構的雛形。 車隊級持續學習 (Fleet-scale Continual Learning)
數據驅動進化: 部署在真實世界中的自動駕駛車隊每天都會遇到新的危險和場景。 高效學習范式: 未來的車輛無需上傳完整的原始駕駛日志,而是可以上傳簡潔的語言片段來描述新情況(例如,“在XX路口出現了一種新的交警手勢”)。云端平臺將這些信息聚合起來,用于模型的課程化更新。甚至,云端智能體還能實時回答路上車輛遇到的不確定性問題,從而在整個車隊中引導知識的快速傳播和共享。 標準化交通語言 (Standardised Traffic Language)
高效協作的基石: 正如航空業擁有全球統一的ICAO通話術語,廣域的車輛協同也需要一套由本體驅動的、標準化的信息集(例如,定義“我方讓行”、“前方有障礙物”等標準意圖)。 VLA的角色: VLA模型是天生的“翻譯家”,可以將原始的、混亂的感知數據,翻譯成這種規范化的、可供車輛間交換的意圖。而 DriveMoE
和 TS-VLM
等模型展示的技術,可以確保這種通信的帶寬足夠低,以適用于V2V(車對車)通信鏈路。 跨模態社交智能 (Cross-modal Social Intelligence)
超越語言: 未來的VLA系統必須將手勢、聲音、交通標志等更廣泛的“語言”信道納入理解范圍。 深度交互: 例如,系統需要能識別警察的手勢或行人的揮手示意,并能通過車燈、車載顯示屏或喇叭等方式,產生明確的、人類可讀的響應。 RAG-Driver
等檢索增強型規劃器為此提供了思路:通過融合實時感知、符號規則和上下文信息來理解這些非語言線索。 總結 這篇綜述為我們描繪了一幅清晰的VLA4AD發展路線圖:從被動的解釋器,到主動的規劃者,再到具備長時程推理能力的智能代理。它系統地總結了現有工作,并為未來的研究指明了方向。通過整合視覺、語言與行動,我們正邁向一個更安全、透明、且與人類社會高度協同的自動駕駛新時代。