250 多篇論文綜合解析端到端自動駕駛面臨哪些挑戰？

ADS智庫 2024-06-11 發布于上海

展開全文

全文 7000+ 字，預計閱讀 40-45 分鐘

導讀

本次論文解讀的“主角”是上海OpenDriveLab自動駕駛團隊發表在CVPR上的一篇論文。該團隊研究涵蓋了自動駕駛大模型，端到端自動駕駛，BEV感知，通用人工智能等多個研究方向。眾所周知，由同一團隊發表的UniAD相關論文，不僅獲得了2023年度CVPR最佳論文獎，更是燃起了學術界和工業界對端到端自動駕駛（End-to-End AD）研究和落地的熱情。在本次研究中，上海Open DriveLab團隊則調查了250多篇有關于端到端自動駕駛的論文，從自動駕駛動機、路線圖、方法、挑戰和未來趨勢等多個方面進行了全面分析，讓我們有機會了解目前端到端自動駕駛所面臨的挑戰和研究趨勢，也為學術研究和工業落地提供了參考方向。

論文標題：End-to-end Autonomous Driving: Challenges and Frontiers

論文作者：Li Chen, Penghao Wu, Kashyap Chitta, Bernhard Jaeger, Andreas Geiger and Hongyang Li

PART.01

問題簡介

傳統自動駕駛多采用模塊化部署策略，其中感知、預測、規劃等各個功能都是單獨開發并集成到車輛中。例如，模塊化中的規劃或控制模塊更多基于規則的設計方式，輸出規劃軌跡和控制信號，但是它無法有效解決不同復雜的駕駛場景。因此，利用大規模數據并使用基于學習的規劃方法作為可行的替代方案變得日益明顯。端到端自動駕駛正是采用深度學習的方式，視規劃設計為一個優化函數問題，將原始傳感器數據作為輸入，在網絡中傳播特征表示，最后直接輸出規劃或控制結果。它通過反向傳播最小化損失函數，讓整個網絡中各個任務進行聯合全局優化，避免了傳統方法中的錯誤逐級傳播的問題。

本文對250多篇論文進行了全面分析，如圖1所示，我們將從端到端自動駕駛系統的動機和路線圖，方法，閉環和開環評估的數據集和基準，面臨的挑戰（可解釋性、泛化、世界模型、因果混淆等），趨勢（數據引擎、大型基礎模型和V2X）等主題進行討論。

▲圖1|調研內容概覽

■1.1 端到端系統動機

在傳統自動駕駛系統，不同任務模塊針對特定任務獨立設計（例如交通燈檢測），它在可解釋性、可驗證性和易于調試方面是有優勢的，但是由于各個模塊優化目標不同，感知模塊追求檢測精度，而規劃以駕駛安全性和舒適性為目標，整個系統可能會因為錯誤積累而失效，并且多任務和多模塊部署也會增加計算負擔。

與傳統的自動駕駛系統，端到端系統有以下優勢：

1）它可以將感知，預測和規劃結合到一個可以聯合訓練的模型中；
2）整個系統，包括其中間特征，都是針對最終目標進行優化；
3）它共享了主干網絡，提高了計算效率；
4）數據驅動的優化任務可以通過擴展訓練數據不斷優化提升系統能力。

■1.2 路線圖

如圖2所示為端到端自動駕駛的發展路線圖，其中每個部分都涉及一次重大的范式轉移或性能提升：

●最早可以追溯到1988年的 ALVINN，以攝像頭和激光測距儀作為輸入，以一個神經網絡生成轉向信號；

●2016至2019年: 深度神經網絡的發展在模仿學習和強化學習取得了顯著的發展，可以構建端到端的CNN系統；

●2019年-2020年：LBC等方法，提出的策略蒸餾方法通過模仿行為良好的專家的策略，顯著提高了閉環性能；

●2021年-2022年：更多的模式和先進的架構被提出，如Transformer注意力機制，捕捉全局上下文代表性特征。這期間，一些模型，如NEAT，利用一些輔助模塊，提高了系統可解釋性；

●2022年-至今：數據生成，預訓練，模塊化端到端規劃等概念被提出，同時一些評估benchmark也在更新迭代，如nuPlan, CARLA v2。

▲圖2｜端到端自動駕駛路線圖

■1.3 相關工作和貢獻

之前的相關工作主要側重端到端自動駕駛學習方法的介紹，沒有涉及最新的基準以及方法，并且缺少關于挑戰和前沿的內容。相比之下，本文所討論的主題涉獵更廣泛。

本文有三個關鍵貢獻：

1）首次對端到端自動駕駛進行了全面分析，包括動機，方法，基準等；
2）其次進行廣泛的調查，超250篇論文進行了分析，提出了一些挑戰和研究主題；
3）最后也討論了大型基礎模型以及數據引擎對端到端自動駕駛帶來的廣泛影響，同時維護一個開源項目，用于跟蹤該領域的最新發展和趨勢

PART.02

方法

本節簡述大多數現有端到端自動駕駛方法背后的基本原理。主要涉及模仿學習的方法，即行為克隆（Behavior Cloning: BC）和逆最優控制（Inverse Optimal Control: IOC）以及強化學習（Reinforcement Learning: RL）。

▲圖3｜端到端自動駕駛方法概覽

■2.1 模仿學習

模仿學習（Imitation Learning: IL），也稱為從演示中學習，通過模仿專家的行為來訓練智能體學習最優策略（如圖3所示）。IL需要一個數據集，其中包含在專家策略下收集的軌跡，其中每個軌跡都是狀態-動作對序列。IL的目標是學習與匹配的代理策略。IL的一個重要且廣泛使用的類別是行為克隆（BC)，它將問題簡化為監督學習。逆向最優控制（IOC），也稱為逆向強化學習（IRL），是另一種IL方法，它利用專家演示來學習獎勵函數。

行為克隆(Behavior Cloning: BC)，將代理策略與專家策略相匹配的目標是通過最小化計劃損失來實現的，作為收集數據集上的監督學習問題：

。這里，表示損失函數，用于測量代理動作和專家動作之間的距離。行為克隆因其簡單和高效而具有優勢，因為它不需要手工設計的獎勵設計。然而，存在一些與行為克隆相關的常見問題，如協變量偏移和因果混淆，都是因訓練狀態和執行狀態空間不一致造成的。

另一個模仿學習的方法是是逆最優控制(Inverse Optimal Control: IOC)算法，它通過專家演示在馬爾可夫決策過程 (MDP) 中學習未知的獎勵函數R(s, a)，其中專家的獎勵函數可以表示為特征的線性組合。

■2.2 強化學習

強化學習（Reinforcement Learning: RL）是一個通過反復試驗進行學習的領域。其中作為深度強化學習的代表DQN網，它通過訓練一個稱為批評家（或 Q network）的神經網絡，該網絡將當前狀態和操作作為輸入，并預測該操作的貼現未來獎勵（當隨后遵循相同的策略時）。然后通過選擇具有最高 Q 值的操作來隱式定義策略。

另一方面，RL需要一個允許執行潛在不安全操作的環境，并且不斷與環境交互探索。同時，RL比監督學習需要更多的數據來訓練，通常會跨多個環境并行數據收集，在現實汽車中滿足這些要求提出了巨大的挑戰。在通過仿真技術進行強化學習結果，其中涉及如何將模擬結果轉移到現實世界，以及如何設計或學習更好的獎勵函數的問題。

PART.03

基準

自動駕駛系統需要對其可靠性進行全面評估以確保安全。為了實現這一目標，研究人員必須使用適當的數據集、仿真器和指標對這些系統進行基準（Benchmarking）測試。本節描述了端到端自動駕駛系統大規模基準測試的兩種方法：

（1）仿真環境中的在線或閉環評估；
（2）人類駕駛數據集的離線或開環評估。

■3.1 在線評估

在現實世界中對自動駕駛系統進行測試成本高昂且存在風險，通常采用仿真作為替代方案。它不僅有助于快速原型設計和測試，實現系統的快速迭代，還提供對各種場景的低成本訪問。此外，還輔助有性能評估工具。

在線評估或閉環評估（Online Evaluation or Closed-loop）涉及構建一個模仿真實駕駛環境的模擬環境。駕駛系統的評估需要在模擬環境中部署系統并隨著時間的推移測量其性能。系統必須在模擬交通中安全導航，同時朝著指定的目標位置前進。開發此類評估仿真器一般涉及三個主要子任務：參數初始化、交通仿真和傳感器仿真。

●參數初始化（Parameter Initialization）：

仿真具有對環境進行高度控制的優勢，包括天氣和照明條件、地圖和 3D屬性，以及低級屬性（例如交通場景中對象的排列和姿勢）。由于其功能全而大而帶來的參數量很大，增大了設計的困難。當前仿真一般通過程序化生成（具備專業知識，手動設置參數）和數據驅動（用于模擬初始化的數據驅動方法旨在學習所需的參數）。

●交通仿真（Traffic Simulation）:

交通仿真涉及在環境中生成和定位具有真實運動的虛擬實體（車輛和行人）。交通仿真有兩種流行的方法，基于規則（交通模擬器使用預定義的規則來生成交通實體的運動）和數據驅動（利用從現實世界中采集的數據來獲得訓練網絡模擬現實中高度交互性和復雜性的交通網絡）。

●傳感器仿真（Sensor Simulation）:

這涉及生成仿真的原始傳感器數據，例如駕駛系統從仿真器中的不同視點從環境接收的相機圖像或激光雷達掃描數據。關于傳感器仿真有兩種方法，基于圖形（通過傳感器中物理渲染過程的近似來生成傳感器數據）和數據驅動（適應現實世界的傳感器數據來創建新的仿真）并輔助采用神經輻射場（NeRF）和機器學習（例如GAN或風格遷移）技術。

在表1中提供了最新可用的駕駛基準的簡潔概述。

▲表1｜開源仿真環境（包含自動駕駛閉環評估Benchmarking）

■3.2 離線評估

離線或開環評估（Offline Evaluation or Open-loop）涉及根據預先記錄的專家駕駛行為來評估系統的性能。將傳感器輸入和數據集中的目標位置作為輸入，通過將系統預測的未來軌跡與人類在駕駛日志中采取的軌跡進行比較來衡量性能。系統的評估基于其軌跡預測與人類地面真實情況的匹配程度，以及輔助指標，例如與其他智能體的碰撞概率。開環評估的優點是易于實現且交通和傳感器數據真實，因為它不需要仿真環境。然而，關鍵的缺點是它不能衡量系統在部署過程中遇到的實際測試分布中的性能。在測試過程中，駕駛系統可能會偏離專家駕駛走廊，因此必須驗證系統從這種漂移中恢復的能力。此外，預測軌跡和觀測軌跡之間的距離并不是多模態場景中合適的性能指標。

目前最主流的離線評估數據集包括 nuScenes、Argoverse、Waymo 和 nuPlan。所有這些數據集都包含來自現實世界駕駛環境的大量帶注釋的軌跡，具有不同的難度。然而，由于上述缺點，開環結果并不能提供閉環駕駛行為改善的決定性證據。總體而言，如果可行且適用，建議在未來的研究中采用現實的閉環基準測試。

PART.04

挑戰

那么端到端自動駕駛當前所面臨的挑戰以及有希望的未來趨勢有哪些呢？

■4.1 輸入模式

▲圖4｜輸入模式和融合策略的示例

早期自動駕駛單一輸入模式只能完成簡單的自動駕駛任務，不足以處理復雜的場景。為了應對更多更復雜的自動駕駛任務，通常會輸入多種傳感器信息（如圖4所示）。然而，各種傳感器具有不同的視角和數據分布，它們之間的巨大差距給自動駕駛的有效融合互補帶來了巨大挑戰。

依據感知特征在不同階段使用方式不同，產生多種多傳感器融合技術是解決不同模態輸入的關鍵技術。此外，Transformer也多被用來聚合不同傳感器輸入的上下文信息，但同時也會帶來大量的計算成本。盡管不同的模式通常會帶來更大的視野和感知準確性，但融合它們來提取端到端自動駕駛的關鍵信息還需要進一步探索，這必須在統一空間（例如BEV）中對這些模式進行建模，識別與政策相關的背景，并丟棄不相關的感知信息。

除了使用視覺感知和一些駕駛知識作為輸入之外，一些研究將自然語言作為細粒度指令來控制視覺運動代理來完成駕駛任務，例如使用GPT-3等大語言模型（LLM），但它們在自動駕駛領域的應用還有待驗證。

■4.2 視覺抽象

端到端自動駕駛系統大致分兩個階段實現機動任務：將狀態空間編碼為潛在特征表示，然后用中間特征解碼駕駛策略。使用預訓練網絡提取有效的特征編碼信息，有利于后續的策略解碼階段，這也可以提高RL方法的樣本效率。但由于當前的方法主要依賴于人類定義的預訓練任務，因此學習到的表示不可避免地存在可能的信息瓶頸，并且可能包含與駕駛決策無關的冗余信息。因此，如何在表示學習過程中更好地提取驅動策略的關鍵信息仍然是一個問題。

■4.3 世界模型

除了更好地抽象感知表示的能力之外，端到端模型對未來做出合理的預測以采取安全的操作也至關重要。世界模型（World Model）為策略模型提供了明確的未來預測。深度強化學習通常會面臨樣本復雜度高的挑戰，這對于自動駕駛等任務來說尤其明顯，因為樣本空間很大。一種基于模型的強化學習（MBRL）通過允許代理與學習的世界模型而不是實際環境進行交互，為提高樣本效率提供了一個有前途的方向。MBRL方法顯式地對世界模型或環境模型進行建模，該模型由轉移動力學和獎勵函數組成，并且代理可以以較低的成本與之交互。然而，由于駕駛環境高度復雜和動態，仍需進一步研究來確定需要建模的內容以及如何有效地建模世界。

■4.4 多任務學習

多任務學習（Multi-task Learning: MTL）涉及通過單獨的分支/頭基于共享表示聯合執行多個相關任務。MTL通過使用單個模型執行多個任務，顯著降低了計算成本。除此之外，端到端的多任務學習在端到端自動駕駛已證明其在提高性能和提供自動駕駛模型可解釋性方面的有效性。然而，輔助任務的最佳組合以及其損失的適當權重以實現最佳性能仍有待探索。此外，構建具有多種類型的對齊和高質量注釋的大規模數據集也提出了重大挑戰。

■4.5 策略蒸餾

由于模仿學習只是模仿專家行為的監督學習，因此相應的方法通常遵循“師生”范式。教師可以訪問周圍智能體和地圖元素的真實狀態，而學生則通過收集的專家軌跡或僅使用原始傳感器輸入的控制信號來直接監督。這給學生模型帶來了巨大的挑戰，因為他們不僅必須提取感知特征，還必須從頭開始學習駕駛策略。為了解決上述困難，一些研究提出將學習過程分為兩個階段，即訓練教師網絡，然后將策略提煉為最終的學生網絡（如圖5所示）。但如何從機器學習中的通用蒸餾方法中汲取更多特征來縮小差距是值得探索的。

▲圖5｜策略蒸餾

■4.6 可解釋性

可解釋性（Interpretability）在自動駕駛中很重要。它不僅有利于工程測試和系統改進，還能從社會角度提供性能保證，增加用戶信任，促進公眾接受。然而，實現端到端自動駕駛模型的可解釋性具有挑戰性。一些X-AI（可解釋的人工智能）技術可以應用于學習模型以獲得顯著圖，然而，這種方法提供的信息有限，對其有效性難以進行評估。相反，我們可以增強模型設計的可解釋性（如圖6所示）。

▲圖6｜不同形式的可解釋性的總結

●注意力可視化：注意力機制通常提供一定程度的可解釋性。

●可解釋的任務：許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性，例如語義分割、深度估計、對象檢測、可供性預測、運動預測和注視圖估計。

●成本學習：基于成本學習的方法表現出一定程度的可解釋性。例如將預測的語義占用圖與舒適度和交通規則約束相結合來構建成本函數。

●語言可解釋性：自然語言是幫助人類理解系統的合適選擇。

●不確定性建模：預測的不確定性主要與硬編碼規則結合使用。

■4.7 因果混淆

駕駛是一項表現出時間平滑性的任務，這使得過去的動作可以可靠地預測下一個動作。然而，使用多個幀訓練的方法可能會過度依賴此快捷方式，并在部署過程中遭受災難性失敗。這個問題在一些作品中被稱為模仿問題，是因果混淆（Causal Confusion）的表現，即訪問更多信息會導致性能更差（圖7所示）。近年來，模仿學習中的因果混淆一直是一個挑戰。

▲圖7｜因果混淆

■4.8 魯棒性

▲圖8｜魯棒性的挑戰

長尾分布（Long-tailed Distribution）問題的一個重要方面是數據集不平衡，其中少數類別占大多數，而許多其他類別只有有限數量的樣本，如圖8（a）所示。自動駕駛中的數據集不平衡的數據集尤其是個問題，有趣的安全且關鍵場景很少發生，但這樣的數據集才是提升最后1%性能魯棒性的關鍵所在。

協變量轉變(Covariate Shift) 是BC的一個重要挑戰。專家策略的狀態分布和經過訓練的代理策略的狀態分布不同，當經過訓練的代理部署在看不見的測試環境中或當其他代理的反應與訓練時間不同時，從而導致嚴重的失敗，圖8(b)給出了一個示例。

領域適應（Domain Adaptation）是一種遷移學習，其中目標任務與源任務相同，但領域不同。在這里，我們討論源域有可用標簽而目標域沒有標簽或可用標簽數量有限的場景。如圖8（c）所示，自動駕駛任務的領域適應需要解決因環境和條件改變的情況，如：模擬到真實、地理位置到地理位置、天氣變化、晝夜、傳感器與傳感器之間。目前，通過NeRF等技術是一個有效的解決方案。

PART.05

趨勢

我們列出了未來研究的一些關鍵方向，這些方向可能會在該領域產生更廣泛的影響。

■5.1 零樣本/少樣本學習

自動駕駛模型最終不可避免地會遇到超出訓練數據分布范圍的現實場景。為了將模型適應一個看不見的目標領域，端到端駕駛領域需要結合零樣本/少樣本學習（Zero-shot and Few-shot Learning）這一關鍵技術。

■5.2 模塊化端到端規劃

模塊化端到端規劃（Modular End-to-end Planning）框架目標是優化多個模塊，同時優先考慮下游規劃任務，其具有可解釋性的優勢。

■5.3 數據引擎

自動駕駛的數據引擎（Data Engine）可以極大地促進數據和模型的迭代開發。它通過借助大型感知模型，以自動的方式簡化高質量感知標簽的標注過程，并且還可以支持挖掘困難/極端情況、場景生成和編輯，促進數據的多樣性和模型的泛化能力。

■5.4 基礎模型

語言和視覺大型基礎模型（Foundation Model）的最新進展對社會產生了重大影響。同樣，開發大型自動駕駛模型的一個可行解決方案是訓練一個視頻預測器，該視頻預測器可以以2D或3D方式對環境進行長期預測，它的優化目標需要足夠復雜，且需要超出幀級感知。

■5.5 V2X