最新綜述：基于深度學習方式的單目物體姿態估計與跟蹤

taotao_2016 2021-06-13

展開全文

原文：Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview

作者：中國人民大學、清華大學、北京交通大學

摘要

目標姿態檢測與跟蹤在自動駕駛、機器人技術、增強現實等領域有著廣泛的應用，近年來受到越來越多的關注。在目標姿態檢測和跟蹤的方法中，深度學習是最有前途的一種，其性能優于其他方法。然而，對于基于深度學習方法的最新發展卻缺乏調查研究。因此，本文對深度學習技術路線中目標姿態檢測與跟蹤的最新進展進行了綜述。為了更深入的介紹，本文的研究范圍僅限于以單目RGB/RGBD數據為輸入的方法，包括實例級單目目標姿態檢測、類別級單目目標姿態檢測和單目目標姿態跟蹤三類主要任務。論文詳細介紹了檢測和跟蹤的度量、數據集和方法。文中還介紹了幾種公開數據集上的最新方法的比較結果，以及有見地的觀察結果和啟發性的未來研究方向。

注1：文末附【目標跟蹤】交流群

注2：整理不易，請點贊支持！

作者：Tom Hardy | 來源：計算機視覺工坊微信公眾號

數據集介紹

實例級單目目標姿態估計與跟蹤數據集：主要包括經典的Linemod、YCB等數據集~

類別級單目目標姿態估計與跟蹤數據集：主要包括KITTI3D、Apolloscape等開源數據集~

實例級單目目標姿態檢測

實例級單目目標姿態檢測的目的是檢測目標并估計其相對于標準幀的6自由度姿態（旋轉和平移），又可分為基于RGB數據和RGBD數據。

基于RGB數據的方法

對于六自由度姿態的估計，最直接的方法是讓深度學習模型直接預測姿態相關參數。然而，從單個RGB圖像直接估計6自由度姿態是一個不適定的問題，并面臨挑戰。由于CAD模型的存在，在輸入圖像和對象模型之間建立2D-3D的對應關系有助于簡化任務。根據以上觀察，我們提供了一個基于RGB的實例級單目物體姿態檢測的整體示意圖，如圖4所示。

一般來說，我們將基于深度學習的方法分為五大類：直接方法、基于關鍵點的方法、基于密集坐標的方法、基于細化的方法和自監督方法，五類方法對應的最新算法以及對應性能如表3和表4所示：

基于RGBD數據方法

RGB圖像缺乏深度信息，使得6自由度物體姿態檢測任務成為一個病態問題。幸運的是，單目RGBD相機的發展推動了基于（RGB）D的6自由度姿態估計方法的發展(基于RGB的方法以RGBD圖像或深度掩模為輸入，充分利用點云表示的能力預測物體的姿態。一般來說，基于（RGB）D的方法可以分為基于檢索的方法、基于關鍵點的方法和其他基于深度學習的方法。

基于（RGB）D的實例級單目物體姿態檢測方法的總體示意圖如圖5所示，算法分類如表6所示。

類別級單目目標姿態檢測

根據預測的重點是1Dof旋轉還是3Dof旋轉，將相關方法分為類別級單目3D目標檢測和類別級單目6D姿態檢測。

1、Category Level Monocular 3D Object Detection

類別級單目三維目標檢測需要預測7個自由度（7Dof）的姿態配置，包括旋轉（1）（即只需要預測偏航）、平移（3）和目標尺寸（3），訓練和測試期間沒有可用的CAD模型。類別級單目三維目標檢測對于自主駕駛場景具有重要意義。它更關注平移預測的精度，而旋轉預測的精度可以相應放寬。激光雷達采集的點云和單目RGB圖像是最常用的數據格式。

常用的方法包括2D proposal方式、Psudeo-LIDAR方式、Keypoints方式以及其它方式，如表7所示。

2、Category Level Monocular 6D Pose Detection

類別級6D姿態估計，9個維度，三個旋轉，三個平移，三個尺寸。主要分為基于Aligning、Regressing、Rligning方式，如表8所示。

單目目標姿態跟蹤

在本節中，我們將介紹單目物體姿態跟蹤方法。根據CAD模型是否可用，將相關方法分為實例級單目目標姿態跟蹤和類別級單目目標姿態跟蹤。整體示意圖如圖8所示：

1、實例級單目目標姿態跟蹤

主要包括Tracking by refinement.、Tracking by optimization方式，思路如圖8所示。

2、類別級單目目標姿態跟蹤

主要包括Tracking by detection、Tracking by keypoints，思路如圖8所示。

聊一下單目姿態檢測與跟蹤方式的優缺點以及未來發展方向

1、實例級基于RGB方式的姿態檢測

第一，雖然現有的算法在簡單的室內場景中表現得足夠好，但是它們仍然很難處理遮擋情況還有雜亂的背景。然而，在實際應用中，像遮擋這樣的干擾是不可避免的。因此，研究如何處理遮擋等復雜干擾是一個很好的研究方向。

第二，現有的僅限RBG的方法非常容易受到光線變化和拍攝角度等因素的影響。這些因素會導致圖像的模糊、反射、盲點、截止等，使得從圖像中提取的特征變得模糊，特別是當這些特征用于檢測關鍵點時。對于環境控制的室內場景（例如室內工廠），這可能不是什么大問題。然而，對于戶外應用，如手機增強現實，由于光照條件的不可控性和不可預測性，這將成為其廣泛應用的最大障礙。因此，設計對上述因素具有魯棒性的算法也是今后的一個重要研究課題。

第三，已有研究表明，建立二維-三維物體姿態估計對應比直接預測姿態參數效果更好，主流工作長期致力于研究如何更好地建立對應。然而，這種方法不能以端到端的方式進行訓練。此外，建立和求解對應關系非常耗時，因此，未來需要考慮設計可微的2D-3D對應關系求解算法，用神經網絡代替，或者探索提高無對應方法性能的可能性。

2、實例級基于RGBD方式的姿態檢測

盡管現有的方法總是比僅使用RGB的方法表現得更好，但是由于需要學習額外的深度信息，它們通常會消耗更多的計算資源。有些方法需要額外的細化步驟，比如ICP，以提高性能，這進一步增加了運行時間。因此，設計一個更輕量級的網絡結構來降低時間復雜度和空間復雜度可能是一個有價值的未來研究課題。

· 大多數現有的低功耗硬件（如移動電話）只能捕獲使用中的稀疏點云。雖然現有的（RGB）基于D的方法都是在深度圖生成的密集點云數據集上進行評估的，但它們在稀疏點云上的性能尚不清楚。這造成了評估性能和實際使用之間的偏差。因此，有必要研究現有算法是否適合以稀疏點云作為輸入。如果沒有，就應該提出新的算法。

· 眾所周知，標記物體的6自由度姿勢非常困難。因此，我們面臨的另一個重要挑戰是如何獲得精確的地面真相。由于現有先進的計算機圖形學技術，具有地面真實感的合成數據非常容易獲得，可以用來訓練目標姿態檢測模型。然而，在合成數據集上訓練的模型在真實世界的圖像上通常表現不佳。因此，這就提出了一個新的可能的未來研究問題：如何提高在綜合數據集上訓練的模型的泛化能力。現有的自監督學習方法已經提供了一些有前途的前期研究，但還需要付出更多的努力。值得注意的是，該研究方向同樣適用于基于RGB的實例級方法和類別級方法。

3、類別級別3D目標檢測

由于其主要應用是為自動駕駛提供環境信息，定位物體比預測物體的大小和方向更重要。

然而，利用單個RGB圖像在三維空間中定位目標是不適定的，因此，如何使模型具有深度預測能力是至關重要的。由于該任務所使用的圖像通常包含多個對象，并且包含廣泛的特征豐富的背景，因此使用它們來推斷深度信息可能是一種可行的解決方案。也就是說，如何利用instance aware關系來提高模型的深度感知能力，尤其是如何利用隱藏在圖像中的非局部特征。將視覺transformer納入網絡架構可能是一個好主意。

· 利用偽激光雷達是一個可行的研究方向。然而，目前基于偽激光雷達的解決方案通常使用現成的深度預測模型預先預測深度。它造成了三維探測和深度預測之間的差距。也就是說，現有的深度估計模型存在次優問題，利用其生成的偽LiDAR點云進行三維探測將進一步加劇這一問題。因此，在未來的偽激光雷達研究中，在同一網絡或同一訓練過程中，將深度估計與三維探測相結合，以獲得互為性能增益，避免不同次優問題積累的探測誤差，具有重要的應用價值。

· KITTI3D等現有數據集始終包含激光雷達捕獲的點云和單目相機捕獲的圖像。盡管這一點在單目檢測任務中，云數據在推理時是不允許使用的，研究如何更好地利用云數據進行訓練具有重要意義單目三維物體探測器。例如，我們可以利用點云在訓練時學習卷積權重，而在推理時丟棄它們。或者我們可以使用現成的點云三維探測器作為教師網絡來訓練單目三維探測器，就像在知識蒸餾中的那樣。

4、類別級6D姿態估計

大多數方法都需要使用現成的二維目標檢測模型來提前定位目標。然后在進行姿態預測之前，對目標圖像進行裁剪和調整大小。這樣的兩階段方案可能會導致定位誤差的累積。因此，一個問題是，是否有可能在一個統一的網絡中或通過完全無建議的方式生成對象建議和完成姿態估計。答案顯然是肯定的，參考了無錨2D目標檢測模型的成功經驗。然而，到目前為止，還沒有研究人員朝著這個方向努力。

· 盡管現有方法通常使用大型主干（如ResNet-101）來學習特性，以確保高精度和有效性，但它們同時降低了效率。再加上二維目標檢測過程耗時，6D姿態檢測體系結構很難保證其實時性。因此，輕量級實時執行模型是一個值得研究的課題。

· 大多數現有算法高度依賴于深度信息的利用。然而，眾所周知，僅以RGB圖像作為輸入對于手機上的增強現實（augmentedreality）等應用非常重要。雖然已經提出了幾種僅適用于RGB的方法，但是它們的性能都很差。因此，在僅RGB類別級單目6D位姿檢測方面可以做更多的工作。

5、單目物體姿態跟蹤

如果CAD模型可用，則在受控場景中解決此問題并不困難。在不可控場景（如自動駕駛場景、室外照明場景等）中，我們將面臨實例級目標姿態檢測任務所面臨的所有問題。

· 我們發現，現有的目標姿態跟蹤算法通常只以兩幀圖像（當前幀和前一幀）作為輸入來預測當前幀的目標姿態。這可能導致三個主要問題：第一，順序信息沒有得到充分利用。其次，跟蹤錯誤會隨著時間的推移而累積，無法消除。第三，可能出現盒子漂移問題。為了解決這些問題，單目目標姿態跟蹤引入了一個可行的研究方向，即利用LSTM等遞歸神經網絡來關聯多幀信息。它不僅可以提高特征的利用率，而且可以保證跟蹤結果的穩定性。

· 許多現有的方法需要渲染CAD模型，這非常耗時，因為大多數現有的渲染器要么是不可微分的，要么是經濟高效的。因此，設計高效的、可微的繪制算法是今后工作的重點。

· 此外，當CAD模型不可用時，大多數現有工程僅跟蹤7自由度3D邊界框。據我們所知，只有一項工作可以實現全9自由度類別級的姿態跟蹤。如前所述，7自由度姿態足以滿足位置感知場景（如自動駕駛）的要求，而對于旋轉和尺寸軟件場景（如增強現實）則不夠。因此，跟蹤全9自由度邊界盒將是一個有意義的研究課題，應該引起更多的關注。

本文僅做學術分享，如有侵權，請聯系刪文。

3D視覺工坊-目標跟蹤交流群

已建立3D視覺工坊-目標跟蹤微信交流群！想要進目標跟蹤學習交流群的同學，可以直接加微信號：CV_LAB。加的時候備注一下：目標跟蹤+學校+昵稱，即可。然后就可以拉你進群了。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。