我們提出了一個簡單而有效的框架,用于實例和全景分割,稱為CondInst(條件卷積的實例和全景分割)。在文獻中,最優秀的實例分割方法通常遵循Mask R-CNN范式,并依賴ROI操作(通常是ROIAlign)來處理每個實例。相反,我們建議使用動態條件卷積處理實例。我們不是使用實例明智的roi作為固定權重的實例掩碼頭的輸入,而是設計動態的實例感知掩碼頭,以要預測的實例為條件。CondInst有三個優點:實例和全景分割被統一到一個完全卷積的網絡中,消除了對ROI的裁剪和特征對齊的需要。2)。消除ROI裁剪也顯著提高了輸出實例掩模的分辨率。3)。由于動態生成的條件分布的能力大大提高,面具頭非常緊湊(如3 conv.層,每個只有8頻道),導致更快推理每個實例,使整體推理時間幾乎不變,與實例的數量無關。我們演示了一種更簡單的方法,可以在實例和全景分割任務上實現更高的精度和推理速度。在COCO數據集上,我們優于一些最先進的方法。我們希望CondInst可以成為一個強大的基線,例如全景分割。 代碼鏈接:https:///AdelaiDet 我們將我們的主要貢獻總結如下。
CondInst的整體架構。C3、C4、C5為骨干網(如ResNet-50)的特征圖。P3到P7是FPN的特征映射,如[26],[43]。Fbottom為底部分支s的輸出,其分辨率與P3相同。在[6]之后,底部的分支聚合了功能映射P3、P4和P5。Fbottom是通過連接相對坐標到Fbottom得到的。分類頭預測目標實例在位置(x, y)處的分類概率px,y,與FCOS相同。控制器為實例生成掩模頭的濾波器參數θx,y。與FCOS類似,也有與控制器并行的中心度和盒頭(為了簡單起見,圖中沒有顯示)。注意,虛線框中的頭重復應用于P3···P7。蒙版頭部是實例感知的,在F底部的應用次數為圖像中實例數的多少。 通過附加一個語義分割分支來實現全景分割的CondInst插圖。語義分割分支在[22]之后。從實例分割和分割的結果分割分支結合在一起使用相同的后處理在[23]。 城市景觀的定性結果。值得注意的是,CondInst可以很好地歪曲細節(最好在屏幕上觀看)。 在COCO數據集上的全景分割結果(在屏幕上看得更好)。顏色編碼類別和實例。正如我們所看到的,CondInst表現得很好。 我們提出了一個新的和簡單的實例分割框架,稱為CondInst。與之前的Mask R-CNN等方法不同,前者使用固定權重的掩碼頭,將掩碼頭限定在實例上,并動態生成掩碼頭的過濾器。這不僅減少了掩模頭的參數和計算復雜度,而且消除了ROI操作,從而得到了一個更快、更簡單的實例分割框架。據我們所知,CondInst是第一個框架,可以在準確性和速度上超過Mask R-CNN,無需更長的訓練時間表。我們相信CondInst可以成為一個新的強大的替代屏蔽R-CNN實例分割。 論文鏈接:https:///pdf/2102.03026.pdf
|
|