來源:ADS智庫 | 首圖圖源:網絡 | 編輯:ADS智庫
本文就“自動駕駛數據閉環”話題整理了一些來自知乎、各家官網及網絡公開信息,還摻雜了部分個人觀點/看法,僅供參考,歡迎討論~
導讀
1 數據閉環介紹
1.1 什么是數據閉環? | 1.2 數據閉環核心模塊介紹
2 數據閉環案例
2.1 Tesla | 2.2 Waymo | 2.3 英偉達 | 2.4 百度 | 2.5 禾多 | 2.6 華為
3 數據閉環難點
3.1 量產 | 3.2 合規 | 3.3 數據管理 | 3.4 數據標注及后續處理 數據閉環本身不算一個新概念,互聯網早期便有廣泛應用,一個典型的例子:各 App 的“用戶體驗改進計劃”。自動駕駛系統除代碼外,還有 AI 模型,其數據閉環在傳統數據閉環方式上引入了模型問題的相關模塊。其最核心的兩個意義:增效、降本。
自動駕駛中的數據閉環,是指算法研發由 case-driven 轉向 data-driven 的核心步驟。大概整理了下數據閉環的鏈路,如下圖所示:- 算法開發主要有數據挖掘數據標注、模型優化這三部分。
- 這里面數據標注中的自動標注,即 AutoLabeling 是目前數據閉環中最為核心的部分。
- 數據挖掘和模型優化,也是需要攻克和解決的點,只不過從成本和效率上,目前優先級沒有自動標注高。
數據閉環核心部分介紹——AutoLabeling 方案1.2.1 Pipeline
目標檢測任務的主要 pipeline 流程包含目標檢測、軌跡生成、軌跡優化三部分。其中目標檢測模型 MOT 算法,都有比較成熟的算法,所以 AutoLabeling 中創新點主要體現在軌跡優化這個步驟。1.2.2 學術界的 SOTA
目前關于 AutoLabeling 的完整方案方面的論文不是很多,這里面比較有代表性的有:谷歌Waymo在2021年發表的:《Offboard 3D Object Detection from Point Cloud Sequences》
Uber的ATG(Advanced Technology Group)在2021年發表的:《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》
Open MMLab在2022年發表的:《MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection》
1.2.3 Auto4D的軌跡優化
Size Branch: 累積全軌跡點(時域信息忽略),BEV編碼,得到全局的穩定size。
Update:基于最近corner align,更新全軌跡的box屬性。
Path Branch:累積全軌跡點(保留時域信息,但時域和高度channel合并),BEV編碼,得到相鄰幀位移
1.2.4 Offboard3D的軌跡優化處理
動靜態判斷:box中心點方差<1m/s^2,首尾幀中心點偏移<1m,則為靜態,否則為動態。
靜態軌跡優化:前背景分割網絡對box周圍的原始點進行分割,box回歸網絡得到box屬性(基于PointNet)
動態軌跡優化:對于點進行前背景分割+點序列編碼,對于框進行序列編碼,最后加2層box回歸網絡。
1.2.5 MPPNet
選取代理點:每個框均勻選擇代理點(4x4x4)
單幀提取特征:提取幾何特征、運動特征
組內特征編碼:x、y、z、c通道分割使用MLP進行feature mixing
組間特征編碼:使用Former結構,共享K、V,進行feature mixing
3D檢測頭:使用Tranformer Decoder
億歐統計了 2023 年具備自動駕駛數據閉環能力的“智駕做題家”團隊,如下:主機廠:tesla、小鵬、阿維塔
自動駕駛解決方案/零部件供應商:Momenta、小馬智行、華為智能車BU、文遠知行、易航智能、德賽西威、馭勢科技、禾多科技、宏景智駕、天瞳威視、領駿科技、蘑菇車聯、智行者科技、福瑞泰克、覺非科技、知行科技、毫末智行、MINIEYE、均勝智能、東軟睿馳、四維圖新、輕舟智航、中海庭、智協慧同
芯片供應商:地平線、黑芝麻智能、芯馳科技、英偉達
數據服務商:云測數據、曼孚科技、奧鵬Appen、格物鈦、景聯文科技、海天瑞聲、世紀互聯、整數智能、杉巖數據
云服務供應商:亞馬遜AWS、華為云、百度智能云、阿里云、火山引擎
Tesla 以 Autopilot 數據引擎框架為核心,基于車端傳感器獲取數據后,在數據管理平臺上,首先經過單元測試確認模型誤差,然后經過數據清洗與標注,最后完成模型訓練與部署,整體架構如下圖所示。
相較于 Tesla,Waymo 引入了數據挖掘、主動學習、自動標注等模塊,但基本的框架相差無幾。獲得數據來源后,通過數據標注獲得數據真值,其中涉及到數據篩選、挖掘和主動學習,模型優化完成測試后,進行發布或部署。
英偉達在自動駕駛開發建立的機器學習平臺 MAGLEV,也是基于閉環的模型迭代:其中有 smart 的數據選擇、數據標準、模型搜索、訓練、評估、調試和部署。
- 一個是中間層小環,數據產生之后,經過數據管理平臺,包括一些仿真測試、仿真云、再到車端部署,實現仿真的場景。
- 另一個是外面的大環,主要做一些數據管理的工作,經過標準、加工、模型訓練以及最后的車端部署,來實現這樣一個大環。
將上面的數據閉環鏈路拆解到架構層來看,可以把自動駕駛的數據研發分為如下五層:從最底下的基礎設施,到中間的 PaaS 工具鏈,再到上面的一些 AI 運營服務。禾多基于完全自研工具鏈,形成了從數據采集、數據仿真到場景庫搭建、系統測試的完整閉環,打通了基于數據驅動的自動駕駛系統升級閉環鏈路。
華為云提供了三層加速方案,包括訓練加速、數據加速、算力加速,自動駕駛算法能夠高效被訓練、被推理,也能形成整個數據端到端的閉環。
華為云依托 "1+3+M+N" 全球汽車產業云基礎設施布局,即全球 1 張車用存算網、3 個超大數據中心構建汽車專區、M 個分布式車聯網節點、N 個汽車專用數據接入點,助力企業打造數據傳輸、存儲、計算、專業合規基礎設施,助推智能駕駛持續發展。華為開發者大會上,張平安表示:華為盤古大模型 3.0 是一個完全面向行業的大模型系列,包括 5+N+X 三層架構,其中第二層的 L1 層是 N 個行業的大模型,既可以提供使用行業公開數據訓練的行業通用大模型,包括政務,金融,制造,礦山,氣象等;也可以基于行業客戶的自有數據,在盤古的 L0 和 L1 上,為客戶訓練自己的專有大模型。自動駕駛技術及平臺能力已逐漸成熟,但數據安全監管、數據閉環“長尾”問題、工具鏈、訓練算力、成本等影響高階自動駕駛商業化落地的關鍵挑戰仍在。過去一兩年,國內大部分車廠都是從 0-1 建立數據閉環的過程。未來數據閉環會從 1.0 向 2.0 方向演進。1.0 是最基礎的功能,客戶的典型訴求是能把數據閉環跑通,2.0 就要關注數據閉環的效率和成本。難點主要介紹 4 個方面:量產、合規和數據管理平臺、數據標注及后續處理針對數據傳輸以及數據特點,數據采集車和量產車有以下不同點。目前行業來看,數據采集車上采集的數據用于自動駕駛功能/算法開發(深度學習模型迭代),而量產車上主要采集的是系統診斷通訊數據、自動駕駛系統存在故障的數據以及由于車型變化影響自動駕駛算法功能的車型差異視頻數據。量產車上回傳的大量數據,需要系統具備高效的文件傳輸能力以及充足的算力,就目前行業現狀來看,還沒有哪家企業具備處理或回傳大量數據的能力。合規分為測繪合規和隱私合規:測繪合規主要涉及到采集國家地理信息時的合規,隱私合規主要涉及到采集用戶隱私相關數據的合規。自從 2022 年 830 新規之后,無論是量產車、采集車還是測試車,自動駕駛相關的道路數據采集都屬于測繪成果數據。關于隱私合規、測繪合規的國家要求可以參考下表: | | | | |
| | | | |
| | 軍事區域 專用的鐵軌或者道路大型民用設施 限高、限重、限寬標牌 | | |
國家對于車載攝像頭、高精定位、激光雷達等傳感器采集的數據還有嚴格的合規要求:測繪的合規流程很復雜(例如:采集的數據還需要車端脫敏、加密等合規處理),資質又難于獲??;隱私合規方面國家給出的限定條款相對寬泛,企業在量產車上采集數據,需要用戶授權。這對海量自動駕駛數據的脫敏帶來了巨大挑戰。
數據管理平臺承擔著高階輔助駕駛/自動駕駛域的數據注入、數據傳輸、數據存儲、數據處理和數據管理服務。可以為高階輔助駕駛/自動駕駛研發過程中的 corner case 問題分析、感知模型訓練、數據標注、仿真場景、評測驗證等提供數據支撐,是衡量高階輔助駕駛/自動駕駛研發能力和水平的關鍵。
自動駕駛系統規?;慨a后,各企業將面臨海量數據風暴,且自動化程度越高,所需的數據存儲量越大。急劇增加的數據量給存儲空間以及數據處理的速度都帶來了挑戰。無論是量產車數采,還是數據采集車數采,自動駕駛視頻采集量都很大,而且采集的視頻需要盡可能的還原真實場景數據,因此,每天采集的數據量大概是 TB 級別,數據海量。即使采用自動化標注工具進行標注后,由于目前的標注工具準確度不夠高,還需要人工進行校驗、修改。數據標注面臨如下幾個問題:
人工標注的標準很難保證一致性,存在精度偏差。
在海量數據量的情況下,人工標注需要很大工作量,很難保證標注結果完全準確。
除了海量數據,自動駕駛需要標注的特征種類繁多,這也給數據處理增加難度。
自動駕駛數據量大-->數據接入困難,數據存儲困難,數據標注及后續處理困難,模型訓練及迭代困難等1. 自動駕駛數據閉環過去幾年是“從無到有”,現在及未來是“從有到精”。 2. 自動駕駛鏈路很長,功能側仍有很多技術問題需要解決,大部分都是功能探索為主,平臺與系統建設為輔?;隍寗友邪l及運營模式的角度來看,目前并沒有真正意義上的閉環,都是局部閉環,大部分都需要手動工作,例如:數據標注。3. 實現自動化數據閉環之路還很長,我們看到了它的進步,更期盼它能更好的實現增效、降本。1. 自動駕駛數據閉環及 AutoLabeling 方案介紹https://www.zhihu.com/question/552466858/answer/27921011202. 自動駕駛數據閉環:實現高階自動駕駛的必由之路https://zhuanlan.zhihu.com/p/5779508983. 自動駕駛數據閉環系列之一:理想豐滿,現實骨感
https://mp.weixin.qq.com/s/A4bLFRdIfYwG81LBanJDYg4. 自動駕駛數據閉環,2023智駕量產新戰場
https://mp.weixin.qq.com/s/v1i8ZSnSCfJag7MbnhzgTA
https://mp.weixin.qq.com/s/5tEe5WkTR35P0b7wM9f6EQ<- 推 薦 閱 讀 ->
【聲明】除文內特殊聲明外,本公眾號內所有文章編寫或轉載的目的僅用于學習和交流,不予以商用,不代表本號觀點及立場。本公眾號內資訊及正文引用圖片均由個人公眾號 ADS 智庫六耳基于官網或公開信息梳理或引用。本公眾號所引用及轉載內容版權均歸原作者所有,凡是注明來源 “ XXX ADS 智庫 ” 或作者為 “ XXX 六耳、XXX ADS 智庫 ” 的文章轉載或引用時請注明來源 ADS 智庫。若有版權或其他任何問題請聯系六耳( 微信號:adas_miao ),本號將及時處理。