![]() ![]() 傳統自動駕駛多采用模塊化部署策略,其中感知、預測、規劃等各個功能都是單獨開發并集成到車輛中。例如,模塊化中的規劃或控制模塊更多基于規則的設計方式,輸出規劃軌跡和控制信號,但是它無法有效解決不同復雜的駕駛場景。因此,利用大規模數據并使用基于學習的規劃方法作為可行的替代方案變得日益明顯。端到端自動駕駛正是采用深度學習的方式,視規劃設計為一個優化函數問題,將原始傳感器數據作為輸入,在網絡中傳播特征表示,最后直接輸出規劃或控制結果。它通過反向傳播最小化損失函數,讓整個網絡中各個任務進行聯合全局優化,避免了傳統方法中的錯誤逐級傳播的問題。 本文對250多篇論文進行了全面分析,如圖1所示,我們將從端到端自動駕駛系統的動機和路線圖,方法,閉環和開環評估的數據集和基準,面臨的挑戰(可解釋性、泛化、世界模型、因果混淆等),趨勢(數據引擎、大型基礎模型和V2X)等主題進行討論。 ![]() ▲圖1|調研內容概覽 ■1.1 端到端系統動機 在傳統自動駕駛系統,不同任務模塊針對特定任務獨立設計(例如交通燈檢測),它在可解釋性、可驗證性和易于調試方面是有優勢的,但是由于各個模塊優化目標不同,感知模塊追求檢測精度,而規劃以駕駛安全性和舒適性為目標,整個系統可能會因為錯誤積累而失效,并且多任務和多模塊部署也會增加計算負擔。 與傳統的自動駕駛系統,端到端系統有以下優勢:
■1.2 路線圖 如圖2所示為端到端自動駕駛的發展路線圖,其中每個部分都涉及一次重大的范式轉移或性能提升: ●最早可以追溯到1988年的 ALVINN,以攝像頭和激光測距儀作為輸入,以一個神經網絡生成轉向信號; ●2016至2019年: 深度神經網絡的發展在模仿學習和強化學習取得了顯著的發展,可以構建端到端的CNN系統; ●2019年-2020年:LBC等方法,提出的策略蒸餾方法通過模仿行為良好的專家的策略,顯著提高了閉環性能; ●2021年-2022年:更多的模式和先進的架構被提出,如Transformer注意力機制,捕捉全局上下文代表性特征。這期間,一些模型,如NEAT,利用一些輔助模塊,提高了系統可解釋性; ●2022年-至今:數據生成,預訓練,模塊化端到端規劃等概念被提出,同時一些評估benchmark也在更新迭代,如nuPlan, CARLA v2。 ![]() ▲圖2|端到端自動駕駛路線圖 ■1.3 相關工作和貢獻 之前的相關工作主要側重端到端自動駕駛學習方法的介紹,沒有涉及最新的基準以及方法,并且缺少關于挑戰和前沿的內容。相比之下,本文所討論的主題涉獵更廣泛。 本文有三個關鍵貢獻:
![]() ▲圖3|端到端自動駕駛方法概覽 ■2.1 模仿學習
那么端到端自動駕駛當前所面臨的挑戰以及有希望的未來趨勢有哪些呢? ■4.1 輸入模式 ![]() ▲圖4|輸入模式和融合策略的示例 早期自動駕駛單一輸入模式只能完成簡單的自動駕駛任務,不足以處理復雜的場景。為了應對更多更復雜的自動駕駛任務,通常會輸入多種傳感器信息(如圖4所示)。然而,各種傳感器具有不同的視角和數據分布,它們之間的巨大差距給自動駕駛的有效融合互補帶來了巨大挑戰。 依據感知特征在不同階段使用方式不同,產生多種多傳感器融合技術是解決不同模態輸入的關鍵技術。此外,Transformer也多被用來聚合不同傳感器輸入的上下文信息,但同時也會帶來大量的計算成本。盡管不同的模式通常會帶來更大的視野和感知準確性,但融合它們來提取端到端自動駕駛的關鍵信息還需要進一步探索,這必須在統一空間(例如BEV)中對這些模式進行建模,識別與政策相關的背景,并丟棄不相關的感知信息。 除了使用視覺感知和一些駕駛知識作為輸入之外,一些研究將自然語言作為細粒度指令來控制視覺運動代理來完成駕駛任務,例如使用GPT-3等大語言模型(LLM),但它們在自動駕駛領域的應用還有待驗證。 ■4.2 視覺抽象 端到端自動駕駛系統大致分兩個階段實現機動任務:將狀態空間編碼為潛在特征表示,然后用中間特征解碼駕駛策略。使用預訓練網絡提取有效的特征編碼信息,有利于后續的策略解碼階段,這也可以提高RL方法的樣本效率。但由于當前的方法主要依賴于人類定義的預訓練任務,因此學習到的表示不可避免地存在可能的信息瓶頸,并且可能包含與駕駛決策無關的冗余信息。因此,如何在表示學習過程中更好地提取驅動策略的關鍵信息仍然是一個問題。 ■4.3 世界模型 除了更好地抽象感知表示的能力之外,端到端模型對未來做出合理的預測以采取安全的操作也至關重要。世界模型(World Model)為策略模型提供了明確的未來預測。深度強化學習通常會面臨樣本復雜度高的挑戰,這對于自動駕駛等任務來說尤其明顯,因為樣本空間很大。一種基于模型的強化學習(MBRL)通過允許代理與學習的世界模型而不是實際環境進行交互,為提高樣本效率提供了一個有前途的方向。MBRL方法顯式地對世界模型或環境模型進行建模,該模型由轉移動力學和獎勵函數組成,并且代理可以以較低的成本與之交互。然而,由于駕駛環境高度復雜和動態,仍需進一步研究來確定需要建模的內容以及如何有效地建模世界。 ■4.4 多任務學習 多任務學習(Multi-task Learning: MTL)涉及通過單獨的分支/頭基于共享表示聯合執行多個相關任務。MTL通過使用單個模型執行多個任務,顯著降低了計算成本。除此之外,端到端的多任務學習在端到端自動駕駛已證明其在提高性能和提供自動駕駛模型可解釋性方面的有效性。然而,輔助任務的最佳組合以及其損失的適當權重以實現最佳性能仍有待探索。此外,構建具有多種類型的對齊和高質量注釋的大規模數據集也提出了重大挑戰。 ■4.5 策略蒸餾 由于模仿學習只是模仿專家行為的監督學習,因此相應的方法通常遵循“師生”范式。教師可以訪問周圍智能體和地圖元素的真實狀態,而學生則通過收集的專家軌跡或僅使用原始傳感器輸入的控制信號來直接監督。這給學生模型帶來了巨大的挑戰,因為他們不僅必須提取感知特征,還必須從頭開始學習駕駛策略。為了解決上述困難,一些研究提出將學習過程分為兩個階段,即訓練教師網絡,然后將策略提煉為最終的學生網絡(如圖5所示)。但如何從機器學習中的通用蒸餾方法中汲取更多特征來縮小差距是值得探索的。 ▲圖5|策略蒸餾 ■4.6 可解釋性 可解釋性(Interpretability)在自動駕駛中很重要。它不僅有利于工程測試和系統改進,還能從社會角度提供性能保證,增加用戶信任,促進公眾接受。然而,實現端到端自動駕駛模型的可解釋性具有挑戰性。一些X-AI(可解釋的人工智能)技術可以應用于學習模型以獲得顯著圖,然而,這種方法提供的信息有限,對其有效性難以進行評估。相反,我們可以增強模型設計的可解釋性(如圖6所示)。 ![]() ▲圖6|不同形式的可解釋性的總結 ●注意力可視化:注意力機制通常提供一定程度的可解釋性。 ●可解釋的任務:許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性,例如語義分割、深度估計、對象檢測、可供性預測、運動預測和注視圖估計。 ●成本學習:基于成本學習的方法表現出一定程度的可解釋性。例如將預測的語義占用圖與舒適度和交通規則約束相結合來構建成本函數。 ●語言可解釋性:自然語言是幫助人類理解系統的合適選擇。 ●不確定性建模:預測的不確定性主要與硬編碼規則結合使用。 ■4.7 因果混淆 駕駛是一項表現出時間平滑性的任務,這使得過去的動作可以可靠地預測下一個動作。然而,使用多個幀訓練的方法可能會過度依賴此快捷方式,并在部署過程中遭受災難性失敗。這個問題在一些作品中被稱為模仿問題,是因果混淆(Causal Confusion)的表現,即訪問更多信息會導致性能更差(圖7所示)。近年來,模仿學習中的因果混淆一直是一個挑戰。 ![]() ▲圖7|因果混淆 ■4.8 魯棒性 ![]() ▲圖8|魯棒性的挑戰 長尾分布(Long-tailed Distribution)問題的一個重要方面是數據集不平衡,其中少數類別占大多數,而許多其他類別只有有限數量的樣本,如圖8(a)所示。自動駕駛中的數據集不平衡的數據集尤其是個問題,有趣的安全且關鍵場景很少發生,但這樣的數據集才是提升最后1%性能魯棒性的關鍵所在。 協變量轉變(Covariate Shift) 是BC的一個重要挑戰。專家策略的狀態分布和經過訓練的代理策略的狀態分布不同,當經過訓練的代理部署在看不見的測試環境中或當其他代理的反應與訓練時間不同時,從而導致嚴重的失敗,圖8(b)給出了一個示例。 領域適應(Domain Adaptation)是一種遷移學習,其中目標任務與源任務相同,但領域不同。在這里,我們討論源域有可用標簽而目標域沒有標簽或可用標簽數量有限的場景。如圖8(c)所示,自動駕駛任務的領域適應需要解決因環境和條件改變的情況,如:模擬到真實、地理位置到地理位置、天氣變化、晝夜、傳感器與傳感器之間。目前,通過NeRF等技術是一個有效的解決方案。 |
|
來自: ADS智庫 > 《Part1:智能駕駛》