盤點｜近半年「端到端自動駕駛」推薦度最高的10篇論文！

InfoRich 2025-06-02 發布于上海

展開全文

自UniAD（CVPR 2023 Best Paper）橫空出世以來，端到端（E2E）自動駕駛已成為學術界與工業界共同追逐的熱點。近兩年間，創新成果不斷涌現，各大頂會（CVPR/ICRA/NeurIPS）的自動駕駛端到端方向論文數量呈現指數級增長。

隨著2025年將要過半，業界也涌現出了不少佳作。

那么，哪些是最「值得推薦」的高質量論文，值得我們反復研讀？

為此，我們采訪調研了數十位優秀的自動駕駛領域一線研究者，整理出了他們心目中認為的，「近半年左右，最推薦學習的10篇端到端自動駕駛領域論文」。

當然，我們深知：任何“推薦榜單”在技術洪流前，都只是滄海一粟。

本文所涉及的工作也絕不是唯一的答案，而只是探索的起點。

（這里僅為我們本次調研中推薦里出現頻次最高的幾篇，歡迎各位同仁在評論區補充你的推薦/自薦！）

歡迎關注【深藍AI】??

—

近半年端到端自動駕駛領域

推薦閱讀的10篇論文

（民榜，排名不分先后）

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

機構：華中科技大學、地平線
推薦理由：首個基于3DGS的RL框架，用于訓練端到端AD策略；也是一種基于強化學習的端到端方案。
論文內容：
作者建立了一個基于3DGS的閉環強化學習（RL）訓練范式。通過利用3DGS技術，可以構建真實物理世界的真實仿真結果，使AD策略能夠廣泛探索狀態空間，并通過大規模試錯學習處理分布外場景。
作者引入了一個由多樣且以前未見過的3DGS環境組成的閉環評估基準。與基于IL的方法相比，RAD在大多數閉環指標中表現更強，尤其是碰撞率降低了3倍。
項目主頁：https:///pdf/2502.13144

VLM-AD: End-to-End Driving through Vision-Language Model Supervision

機構：Cruise LLC 、美國東北大學
推薦理由：利用VLM作為教師模型方法，且在推理過程中不需要VLM，適合實時部署。
論文內容：
作者提出了VLM-AD，通過基于推理的行為文本注釋的高質量數據集，從VLMs中提煉出駕駛推理知識進入端到端AD管道。
設計了兩種即插即用的輔助任務，通過非結構化的自由文本和結構化動作標簽對現有的端到端AD管道進行監督。這些任務實現了VLM知識的有效提煉，引導模型學習更豐富的特征表示以提升規劃性能，而無需VLM微調或推理時使用。
在nuScenes數據集上的廣泛實驗驗證了本文提出方法的有效性，UniAD和VAD的碰撞率分別降低了38.7%和57.4%。
論文地址：https:///pdf/2412.14446
延展閱讀：碰撞率降低57.4%！VLM-AD顯著提升自動駕駛規劃準確性，無需VLM實時推理

EMMA: End-to-End Multimodal Model for Autonomous Driving

機構：Waymo LLC
推薦理由：全局式端到端的代表，直接輸入視頻，沒有骨干網，核心就是多模態大模型。
論文內容：
作者提出了一種自動駕駛中的端到端多模態模型；EMMA在端到端運動規劃方面展現出強大的性能，在開源基準nuScenes上實現了最先進的性能并且在Waymo Open Motion Dataset（WOMD）上取得了具有競爭力的結果。
該工作證明了EMMA可以作為自動駕駛領域中的通用模型，為多項駕駛相關的任務聯合生成輸出結果。特別是，當EMMA與運動規劃、目標檢測和道路圖任務聯合訓練時，它的性能與單獨訓練的模型相當甚至有所超越。
論文地址：https:///pdf/2410.23262

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving

機構：上海交通大學
推薦理由：DriveTransformer為端到端自動駕駛提供了一種無需BEV的統一、并行和協同的方法，便于訓練和擴展。

論文內容：
DriveTransformer具有三個關鍵屬性：
任務并行：所有任務查詢在每個模塊中直接相互交互，促進跨任務知識轉移，同時在沒有明確層次結構的情況下保持系統穩定。
稀疏表示：任務查詢直接與原始傳感器特征交互，提供了一種高效直接的信息提取方式，符合端到端優化范式。
流處理：時序融合通過先進先出隊列實現，該隊列存儲歷史任務查詢，并通過時序交叉注意力進行融合，確保效率和特征重用。

論文地址：https:///pdf/2503.07656
項目主頁：https://github.com/Thinklab-SJTU/DriveTransformer/
論文一作直播分享完整回放：https://www./open/course/266

TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

機構：理想、中科院計算所、清華大學
推薦理由：NAVSIM的新SOTA！自動駕駛中基于解耦多模態表示的端到端軌跡生成
論文內容：
作者提出了一種編碼器-解碼器生成軌跡模型TransDiffuser。它首先編碼場景感知和自車的運動，然后利用編碼信息作為去噪解碼器的條件輸入來解碼多模態多樣化的可行軌跡。
本文模型在NAVSIM基準上實現了最新的PDM得分94.85，而沒有任何顯式的引導，例如基于錨的軌跡或者預定義的詞表。
論文地址：https://www./pdf/2505.09315

Distilling Multi-modal Large Language Models for Autonomous Driving

機構：上海人工智能實驗室、商湯科技、斯坦福大學等
推薦理由：通過知識蒸餾將多模態大語言模型（MLLM）的知識轉移到基于視覺的E2E規劃器中，有助于提升模型在復雜和長尾場景下（如極端天氣、罕見障礙物）的泛化能力。
論文內容：

作者通過設計多模態LLM（MLLM）與輕量化視覺規劃器的聯合訓練策略，將LLM的世界知識（如交通規則、場景語義）蒸餾到端到端規劃器中，使后者無需實時調用LLM即可繼承其推理能力，推理延遲降低至傳統方法的1/3。
引入時空對齊損失函數，強制規劃器學習LLM對連續幀的語義理解（如“左側車道流量減少”），并提前觸發變道決策，在nuScenes數據集上實現37%的軌跡誤差下降和80%的碰撞率減少。
解耦式架構設計采用雙路徑蒸餾，同時支持動態調整語義權重以適應復雜場景。

論文地址：https:///pdf/2501.09757

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

機構：華中科技大學、地平線
推薦理由：首次在端到端自動駕駛中引入擴散模型，有效解決了擴散模型在動態開放場景中的模式坍縮（Mode Collapse）和高計算成本問題，為構建高效、魯棒的多模態自動駕駛規劃提供了新思路。
論文內容：
作者提出了一種截斷擴散策略 DiffusionDrive，該策略結合了先前的多模式錨點并截斷擴散調度，使模型能夠學習從錨定高斯分布到多模式駕駛動作分布的去噪過程。此外，設計一個高效的級聯擴散解碼器，增強與條件場景上下文的交互。
與普通擴散策略相比，該模型 DiffusionDrive 將去噪步減少 10 倍，僅需 2 步即可提供卓越的多樣性和質量。在面向規劃的 NAVSIM 數據集上，借助對齊的 ResNet- 34 主干，DiffusionDrive 無需花哨考慮即可實現 88.1 PDMS，同時在 NVIDIA 4090 上以 45 FPS 的實時速度運行。
論文地址：https:///abs/2411.15139
項目主頁：https://github.com/hustvl/DiffusionDrive

HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

機構：Nullmax
推薦理由：旨在提升端到端自動駕駛系統在閉環評估中成功率低的問題，特別是在規劃模塊的查詢設計與交互方面，HiP-AD在nuScenes數據集上閉環碰撞率降低至0.7%，且支持車載芯片實時部署。
論文內容：
作者引入了一種多粒度的規劃查詢表示方法，整合了空間、時間和駕駛風格等多種采樣模式下的異構路標點（heterogeneous waypoints）。這種表示為軌跡預測提供了額外的監督，增強了自車的精確閉環控制能力。
利用規劃軌跡的幾何特性，HiP-AD 結合可變形注意力機制，實現了基于物理位置的圖像特征有效檢索。這種機制允許模型動態地從透視視圖中提取相關的圖像特征，提高了感知的準確性。
同時，HiP-AD 在一個統一的解碼器中同時執行感知、預測和規劃任務。通過在鳥瞰圖（BEV）空間中，規劃查詢與感知查詢的迭代交互，實現了全面的任務融合。
論文地址：https:///pdf/2503.08612
項目主頁：https://github.com/nullmax-vision/HiP-AD

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

機構：同濟大學
推薦理由：該框架驗證了視覺語言模型（VLM）與生成式規劃結合的可能性；通過語言指令引導增強無地圖場景泛化能力，為高魯棒性自動駕駛規劃提供了新范式。
論文內容：
作者通過鳥瞰圖（BEV）特征提取與矢量化變換器，將多視角圖像編碼為結構化語義信息，并引入語言模態的常識知識（如交通規則、導航指令），彌合視覺與語言模態的語義鴻溝。
跨模態語言模型與自回歸生成設計基于Transformer的生成模型，以自回歸方式聯合輸出駕駛決策（如變道、避障）和細粒度軌跡。
并采用輕量化預訓練架構（模型參數量僅0.4B），推理速度達188ms/幀，支持實時部署；通過語言指令引導（如“左轉優先”），在無地圖場景中泛化性能超越純視覺方法15%。
論文地址：https:///pdf/2501.08861
項目主頁：https://github.com/ltp1995/GPVL
延展閱讀：告別激光雷達？特斯拉之后，GPVL 用純視覺方案實現 188ms 生成安全軌跡！

End-to-End Autonomous Driving through V2X Cooperation

機構：香港大學、清華大學
推薦理由：首個端到端車路協同自動駕駛框架。
論文內容：
UniV2X整體借鑒了UniAD的transformer架構，能夠輸出檢測、跟蹤、在線建圖、預測、柵格占據等中間結果，實現可解釋的端到端方案。在傳輸過程中，UniV2X采用了混合傳輸融合架構，即query和概率圖（probability map）的混合傳輸。
作者通過對路端和他車數據進行時間和空間同步，然后進行跨視角的數據特征融合，最終實現協同端到端。
論文地址：https:///pdf/2404.00717
項目主頁：https://github.com/AIR-THU/UniV2X

—

端到端自動駕駛領域的

經典代表作

在端到端自動駕駛的發展歷程中，以下幾篇論文具有里程碑意義，一定程度上定義了技術演進的方向：

Planning-oriented Autonomous Driving

機構：上海人工智能實驗室、武漢大學及商湯科技聯合發表
獎項：CVPR 2023最佳論文，也是近十年來中國學術機構首次獲此殊榮
推薦理由：作為CVPR 2023最佳論文，UniAD首次將感知（目標檢測、車道線識別）、預測（軌跡預測、占據柵格）與規劃任務整合到統一的端到端框架中，通過共享特征和顯式任務交互提升規劃性能，成為后續研究的基準。
論文內容：作者將感知、預測和規劃等任務整合到一個網絡中。該框架通過統一的查詢接口進行任務間通信與協調，以規劃為核心目標，聯合優化目標檢測、跟蹤、制圖、運動預測、占用預測和路徑規劃等任務。
論文地址：https:///abs/2212.10156
項目主頁：https://github.com/OpenDriveLab/UniAD

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

機構：華中科技大學、地平線
獎項： ICCV 2023
推薦理由：該論文提出了一種全新的端到端矢量化自動駕駛范式，通過矢量化場景表示顯著提升了規劃的安全性和效率，同時大幅降低了計算開銷，對于自動駕駛系統的實際部署具有重要意義。
論文內容：論文提出了一種名為 VAD（Vectorized Autonomous Driving）的端到端矢量化自動駕駛范式，將駕駛場景建模為完全矢量化的表示。該方法利用矢量化的代理運動和地圖元素作為明確的實例級規劃約束，有效提升了規劃的安全性。
論文地址：https:///pdf/2303.12077
項目主頁：https://github.com/hustvl/VAD

End-to-end Autonomous Driving: Challenges and Frontiers

機構：上海人工智能實驗室、香港大學、德國圖賓根大學等機構發表。
獎項： IEEE PAMI 2024
推薦理由：這篇論文系統梳理端到端自動駕駛的挑戰，融合多技術并提出新方法，在多個數據集上驗證并提升關鍵指標，是端到端自動駕駛領域的重要參考。
論文內容：在本論文中，作者對250多篇論文進行了全面分析，涵蓋了端到端自動駕駛的動機、路線圖、方法、挑戰和未來趨勢。作者深入探討了幾個關鍵挑戰,包括多模態、可解釋性、因果混淆、魯棒性和世界模型等。此外，還討論了基礎模型和視覺預訓練的當前進展，以及如何在端到端駕駛框架內部署這些技術。
論文地址：https:///pdf/2303.12077
項目主頁：https://github.com/hustvl/VAD