【原】使用條件卷積進行實例和全景分割

小白學視覺 2022-11-12 發布于黑龍江

展開全文

重磅干貨，第一時間送達

小白導讀

論文是學術研究的精華和未來發展的明燈。小白決心每天為大家帶來經典或者最新論文的解讀和分享，旨在幫助各位讀者快速了解論文內容。個人能力有限，理解難免出現偏差，建議對文章內容感興趣的讀者，一定要下載原文，了解具體內容。

摘要

我們提出了一個簡單而有效的框架，用于實例和全景分割，稱為CondInst(條件卷積的實例和全景分割)。在文獻中，最優秀的實例分割方法通常遵循Mask R-CNN范式，并依賴ROI操作(通常是ROIAlign)來處理每個實例。相反，我們建議使用動態條件卷積處理實例。我們不是使用實例明智的roi作為固定權重的實例掩碼頭的輸入，而是設計動態的實例感知掩碼頭，以要預測的實例為條件。CondInst有三個優點:實例和全景分割被統一到一個完全卷積的網絡中，消除了對ROI的裁剪和特征對齊的需要。2)。消除ROI裁剪也顯著提高了輸出實例掩模的分辨率。3)。由于動態生成的條件分布的能力大大提高,面具頭非常緊湊(如3 conv.層,每個只有8頻道),導致更快推理每個實例,使整體推理時間幾乎不變,與實例的數量無關。我們演示了一種更簡單的方法，可以在實例和全景分割任務上實現更高的精度和推理速度。在COCO數據集上，我們優于一些最先進的方法。我們希望CondInst可以成為一個強大的基線，例如全景分割。

代碼鏈接：https:///AdelaiDet

論文創新點

我們將我們的主要貢獻總結如下。

我們嘗試從一個新的角度來解決實例分割問題，即使用動態掩模頭。與現有的Mask R-CNN等方法相比，這一新的解決方案獲得了更好的實例分割性能。據我們所知，這是第一次一個新的實例分割框架在精度和速度上超過了最近的國家最先進的水平。
CondInst是完全卷積的，并且避免了前面提到的許多現有方法中使用的調整大小操作，因為CondInst不依賴于ROI操作。不需要調整特征地圖的大小，就可以得到具有更精確邊緣的高分辨率實例掩碼。
由于CondInst中的掩碼頭非常緊湊，與box檢測器FCOS相比，CondInst只需要10%的計算時間就可以獲得掩碼結果，即使在處理每張圖像的最大實例數(即100個實例)時也是如此。總的推斷時間也是穩定的，因為它不依賴于映像中的實例數量。
通過額外的語義分割分支，CondInst可以很容易地擴展到全景分割，從而為實例和全景分割任務生成統一的全卷積網絡。
CondInst實現了最先進的性能，在實例和全景分割任務，同時是快速和簡單的。我們希望CondInst能夠成為實例和全景分割任務以及其他實例級識別任務(如關鍵點檢測)的強大替代方案。

框架結構

CondInst的整體架構。C3、C4、C5為骨干網(如ResNet-50)的特征圖。P3到P7是FPN的特征映射，如[26]，[43]。Fbottom為底部分支s的輸出，其分辨率與P3相同。在[6]之后，底部的分支聚合了功能映射P3、P4和P5。Fbottom是通過連接相對坐標到Fbottom得到的。分類頭預測目標實例在位置(x, y)處的分類概率px,y，與FCOS相同。控制器為實例生成掩模頭的濾波器參數θx,y。與FCOS類似，也有與控制器并行的中心度和盒頭(為了簡單起見，圖中沒有顯示)。注意，虛線框中的頭重復應用于P3···P7。蒙版頭部是實例感知的，在F底部的應用次數為圖像中實例數的多少。

通過附加一個語義分割分支來實現全景分割的CondInst插圖。語義分割分支在[22]之后。從實例分割和分割的結果分割分支結合在一起使用相同的后處理在[23]。

實驗結果

城市景觀的定性結果。值得注意的是，CondInst可以很好地歪曲細節(最好在屏幕上觀看)。

在COCO數據集上的全景分割結果(在屏幕上看得更好)。顏色編碼類別和實例。正如我們所看到的，CondInst表現得很好。

實驗結果

我們提出了一個新的和簡單的實例分割框架，稱為CondInst。與之前的Mask R-CNN等方法不同，前者使用固定權重的掩碼頭，將掩碼頭限定在實例上，并動態生成掩碼頭的過濾器。這不僅減少了掩模頭的參數和計算復雜度，而且消除了ROI操作，從而得到了一個更快、更簡單的實例分割框架。據我們所知，CondInst是第一個框架，可以在準確性和速度上超過Mask R-CNN，無需更長的訓練時間表。我們相信CondInst可以成為一個新的強大的替代屏蔽R-CNN實例分割。

論文鏈接：https:///pdf/2102.03026.pdf