久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    不需要標(biāo)注數(shù)據(jù)的語(yǔ)義分割!ETH&魯汶大學(xué)提出MaskDistill,用Transformer來(lái)進(jìn)行無(wú)監(jiān)督語(yǔ)義分割,SOTA!

     我愛(ài)計(jì)算機(jī)視覺(jué) 2022-07-26 發(fā)布于江蘇
    詳細(xì)信息如下:
    • 論文地址:https:///abs/2206.06363
    • 代碼地址:https://github.com/wvangansbeke/MaskDistill


          01      

    摘要


    無(wú)監(jiān)督語(yǔ)義分割的任務(wù)旨在將像素聚類成具有語(yǔ)義意義的組。具體來(lái)說(shuō),分配給同一簇的像素應(yīng)該共享高級(jí)語(yǔ)義屬性,例如它們的對(duì)象或部件類別。

    本文提出了 MaskDistill:一種基于三個(gè)關(guān)鍵思想的無(wú)監(jiān)督語(yǔ)義分割新框架。首先,作者提倡一種數(shù)據(jù)驅(qū)動(dòng)的策略來(lái)生成對(duì)象掩碼,作為語(yǔ)義分割的像素分組先驗(yàn)。這種方法省略了手工制作的先驗(yàn),這些先驗(yàn)通常是為特定的場(chǎng)景組合而設(shè)計(jì)的,并限制了目前框架的適用性。其次,MaskDistill 對(duì)對(duì)象掩碼進(jìn)行聚類以獲得用于訓(xùn)練初始對(duì)象分割模型的偽ground-truth。第三,利用這個(gè)模型過(guò)濾掉低質(zhì)量的對(duì)象掩碼。這種策略減輕了之前像素分組中的噪聲,并產(chǎn)生了一個(gè)干凈的掩碼集合,使用這些掩碼來(lái)訓(xùn)練最終的分割模型。

    通過(guò)結(jié)合這些組件,可以在 PASCAL (+11% mIoU) 和 COCO (+4% mask AP50) 上大大優(yōu)于以前的無(wú)監(jiān)督語(yǔ)義分割工作。有趣的是,與現(xiàn)有方法相反,本文的框架不鎖定低級(jí)圖像線索,也不限于以對(duì)象為中心的數(shù)據(jù)集。

          02      

    Motivation

    為圖像中的每個(gè)像素分配類別標(biāo)簽的任務(wù)(語(yǔ)義分割)已被廣泛研究。語(yǔ)義分割工具用于許多領(lǐng)域,如自動(dòng)駕駛、醫(yī)學(xué)成像和農(nóng)業(yè)。今天,研究人員通過(guò)深度卷積網(wǎng)絡(luò)處理分割任務(wù),該網(wǎng)絡(luò)從完全標(biāo)注的數(shù)據(jù)集中學(xué)習(xí)分層圖像表示,其中每個(gè)像素都與一個(gè)類別標(biāo)簽相關(guān)聯(lián)。然而,收集這樣的標(biāo)注會(huì)消耗大量的時(shí)間和金錢。

    因此,一些工作探索了勞動(dòng)強(qiáng)度較低的標(biāo)記形式來(lái)訓(xùn)練分割模型,例如涂鴉、邊界框、點(diǎn)擊和圖像級(jí)標(biāo)簽。還有一些工作研究了半監(jiān)督方法,這些方法通過(guò)在訓(xùn)練期間利用額外的未標(biāo)記圖像來(lái)提高性能。在本文中,作者更進(jìn)一步,以自監(jiān)督的方式學(xué)習(xí)分割模型。具體來(lái)說(shuō),目標(biāo)是學(xué)習(xí)一個(gè)聚類函數(shù),將語(yǔ)義相關(guān)的像素分配給同一個(gè)聚類,而不依賴于人工標(biāo)記。

    為了實(shí)現(xiàn)這一概念,端到端方法通過(guò)對(duì)圖像增強(qiáng)視圖中像素的聚類分配施加一致性來(lái)學(xué)習(xí)聚類功能。然而,這些方法傾向于鎖定低級(jí)圖像線索,如顏色或紋理。此外,聚類強(qiáng)烈依賴于網(wǎng)絡(luò)的初始化。與這些方法不同,作者不采用端到端策略。

    另一組工作提出了一種自下而上的方法來(lái)解決這個(gè)問(wèn)題。首先,他們利用邊緣檢測(cè)或顯著性估計(jì)等低級(jí)或中級(jí)視覺(jué)先驗(yàn)來(lái)尋找可能共享相同語(yǔ)義的圖像區(qū)域。在第二步中,他們使用圖像區(qū)域來(lái)學(xué)習(xí)捕獲語(yǔ)義信息的像素嵌入。特別是,圖像區(qū)域充當(dāng)正則化器,消除了分割對(duì)網(wǎng)絡(luò)初始化的依賴。隨后可以通過(guò) K-means 對(duì)像素嵌入進(jìn)行聚類以獲得圖像分割。雖然自下而上的方法獲得了更好的結(jié)果,但它們也存在一些缺點(diǎn)。

    最重要的是,手工制作的先驗(yàn)(例如邊緣或顯著性)對(duì)像素進(jìn)行分組的依賴限制了它們的使用。例如,顯著性估計(jì)僅適用于以對(duì)象為中心的圖像。此外,一些作品需要標(biāo)記來(lái)識(shí)別適當(dāng)?shù)膱D像區(qū)域。

    本文提出了 MaskDistill,這是一個(gè)解決上述限制的新框架。與自底向上方法一樣,MaskDistill 首先識(shí)別可能屬于同一對(duì)象的像素組。由于對(duì)象性是一個(gè)高級(jí)構(gòu)造,因此避免使用手工制作的先驗(yàn),而是提倡數(shù)據(jù)驅(qū)動(dòng)的方法。作者觀察到自監(jiān)督視覺(jué)Transformer學(xué)習(xí)空間結(jié)構(gòu)的圖像表示。

    特別是,可以通過(guò)視覺(jué)Transformer中的注意力層提取高度準(zhǔn)確的對(duì)象掩碼。與依賴手工先驗(yàn)的現(xiàn)有工作不同,這有助于將本文的框架擴(kuò)展到更具挑戰(zhàn)性的數(shù)據(jù)集。特別是,手工制作的先驗(yàn)往往是為特定的場(chǎng)景組合而設(shè)計(jì)的。例如,顯著性估計(jì)適用于對(duì)象較少的圖像(例如PASCAL),但不適用于更復(fù)雜的場(chǎng)景(例如 COCO)。本文的框架不存在這個(gè)問(wèn)題。

    本文對(duì)對(duì)象掩碼進(jìn)行聚類,并將結(jié)果用作偽ground-truth來(lái)訓(xùn)練對(duì)象分割模型,例如 Mask R-CNN。該模型預(yù)測(cè)對(duì)象掩碼候選者及其置信度分?jǐn)?shù)。作者觀察到,較高的置信度分?jǐn)?shù)與質(zhì)量較好的對(duì)象掩碼相關(guān)。基于這一觀察,作者通過(guò)利用模型的預(yù)測(cè)構(gòu)建了一組更清晰的對(duì)象掩碼。具體來(lái)說(shuō),作者過(guò)濾掉每張圖像的置信度分?jǐn)?shù)低的預(yù)測(cè)。生成的對(duì)象掩碼集用作偽ground-truth來(lái)訓(xùn)練最終的語(yǔ)義分割模型。

    本文的貢獻(xiàn)是:
    1. 開發(fā)了一個(gè)新的自下而上的框架來(lái)解決無(wú)監(jiān)督語(yǔ)義分割的任務(wù),

    2. 提出了一種數(shù)據(jù)驅(qū)動(dòng)的策略來(lái)獲得用于語(yǔ)義分割的像素分組先驗(yàn)基于自監(jiān)督Transformer模型,

    3. 使用置信對(duì)象掩碼候選者來(lái)改進(jìn)分割結(jié)果,

    4. 在無(wú)監(jiān)督設(shè)置下,在 PASCAL和COCO數(shù)據(jù)集上SOTA。



          03      

    方法



    本文的方法遵循自下而上的方案來(lái)解決無(wú)監(jiān)督語(yǔ)義分割任務(wù)。首先,作者提倡一種數(shù)據(jù)驅(qū)動(dòng)的方法,通過(guò)自監(jiān)督的視覺(jué)Transformer來(lái)挖掘?qū)ο笱诖a。其次,通過(guò)對(duì)象分割模型,即 Mask R-CNN提取每個(gè)圖像的多個(gè)對(duì)象掩碼。第三,討論如何使用找到的對(duì)象掩碼訓(xùn)練最終的分割模型。作為關(guān)鍵組件,作者僅使用具有高置信度分?jǐn)?shù)的對(duì)象掩碼。該策略減輕了掩碼蒸餾步驟中引入的噪聲。上圖顯示了本文提出的 MaskDistill 框架的概述。

    3.1 Learning Objectness


    端到端方法不太可能發(fā)現(xiàn)屬于高級(jí)對(duì)象類別的圖像區(qū)域,例如鳥類、貓、建筑物等。出于這個(gè)原因,作者遵循之前的工作,并提倡一種自下而上的方法來(lái)解決無(wú)監(jiān)督語(yǔ)義分割的任務(wù)。特別是,在進(jìn)行語(yǔ)義分割之前,首先將圖像分解為其不同的組件是有利的。現(xiàn)有方法通過(guò)手工制作的低級(jí)(例如,超像素或邊緣)或中級(jí)(例如,顯著性)像素分組先驗(yàn)來(lái)實(shí)現(xiàn)這一點(diǎn)。然而,這樣的先驗(yàn)是次優(yōu)的。

    基于超像素或邊緣的低級(jí)先驗(yàn)會(huì)產(chǎn)生圖像的過(guò)度分割,從而產(chǎn)生具有低語(yǔ)義內(nèi)容的圖像區(qū)域(見(jiàn)上圖中的第一行)。不同的是,中級(jí)先驗(yàn)可以聚合來(lái)自不同對(duì)象的部分(參見(jiàn)上圖中的中間行)。為了解決這些缺點(diǎn),作者提出通過(guò)依賴自監(jiān)督表示學(xué)習(xí)以數(shù)據(jù)驅(qū)動(dòng)的方式獲得像素分組先驗(yàn)。上圖中的底行顯示了一些示例。與手工制作的像素分組先驗(yàn)不同,本文的方法生成與真實(shí)目標(biāo)對(duì)齊的對(duì)象掩碼。

    在本文中,作者基于自監(jiān)督的視覺(jué)Transformer來(lái)挖掘?qū)ο笱诖a。做出這個(gè)決定的原因有三個(gè)。首先,transformers 在patch級(jí)別進(jìn)行推理,這允許模型構(gòu)建一個(gè)表示不同圖像區(qū)域之間相似性的親和圖(affinity graph)。

    其次,自監(jiān)督視覺(jué)Transformer學(xué)習(xí)了豐富的空間表示,這些表示可以捕獲對(duì)象信息,這有助于它們用于挖掘?qū)ο笱诖a。此外,這些表示對(duì)每個(gè)圖像組件的詳細(xì)信息進(jìn)行編碼,這些信息可能超出人類定義的分類法。

    第三,自監(jiān)督的視覺(jué)Transformer不依賴于人類標(biāo)記,這使模型能夠利用大型未標(biāo)記數(shù)據(jù)集。受這些發(fā)現(xiàn)的啟發(fā),作者提出從視覺(jué)Transformer中的最終自注意力層中提取對(duì)象信息。

    3.2 Distilling Object Masks Using Self-Attention

    Preliminaries

    首先將圖像reshape為 N 個(gè)patch序列。每個(gè)patch的大小為 S × S 像素。作者將圖像patch稱為patch token。patch token進(jìn)一步與特殊分類token  [CLS] 連接,從而產(chǎn)生由 N + 1 個(gè)token組成的輸入序列。作者使用來(lái)自最終多頭自注意力 (MSA) 塊的特征來(lái)計(jì)算對(duì)象掩碼,其中每個(gè)頭 h 執(zhí)行單個(gè)自注意力操作。

    Construct Affinity Graphs

    Follow在之前的工作,作者構(gòu)建了一個(gè)親和圖來(lái)測(cè)量圖像patch之間的相似性。給定輸入序列,將親和向量 計(jì)算為最終 MSA 塊中分類token  [CLS] 和patch token [I] 之間的成對(duì)相似性。

    類似地,親和矩陣測(cè)量所有patch token [I] 對(duì)之間的成對(duì)相似性。特別是,元素在序列的兩個(gè)token i 和 j 之間計(jì)算,作為它們的特征表示的點(diǎn)積,其中 。最后,作者對(duì)注意力頭 上的親和力進(jìn)行平均:

    Select Discriminative Tokens

    本文的目標(biāo)是選擇可能對(duì)應(yīng)于對(duì)象部分的patch token。特別是,作者根據(jù)CLS token相應(yīng)的的親和力關(guān)注前 k 個(gè)響應(yīng)。形式上,定義patch集,其中表示圖中從分類token  [CLS] 到patch token的有向邊。

    此外,將 中具有最大(即 top-1)親和力的patch定義為源patch。該區(qū)域往往對(duì)應(yīng)于最具辨別力的圖像組件,例如鳥的喙、犀牛的角等。

    Construct Initial Masks

    根據(jù)其源 s 和proposal  ,為每個(gè)圖像 X 生成單個(gè)對(duì)象掩碼。源 s 應(yīng)該屬于預(yù)測(cè)的對(duì)象掩碼,因?yàn)樗韺?duì)象最具辨別力的部分。遵循之前的工作,作者將信息從 s 擴(kuò)散到proposal

    特別是,只有 中與 s 相似的patch被進(jìn)一步視為proposal 。僅當(dāng)時(shí),對(duì)象掩碼在位置 j 設(shè)置為 1。因此,如果 s 和之間的成對(duì)相似性總和為正,則塊 j 與 s 屬于同一對(duì)象。最后,使用最近鄰插值對(duì)獲得的掩碼進(jìn)行整形和上采樣到原始圖像大小(H,W),得到

    Distill Mask R-CNN

    為了為每個(gè)圖像生成多個(gè)候選對(duì)象掩碼,作者訓(xùn)練了一個(gè)region proposal網(wǎng)絡(luò),即 Mask R-CNN。該對(duì)象分割模型需要每個(gè)圖像的類別 c、邊界框坐標(biāo) b 和前景-背景掩碼 M。

    請(qǐng)注意,在上一步中已經(jīng)獲得了對(duì)象掩碼及其對(duì)應(yīng)的邊界框坐標(biāo)。但是,這些掩碼與類無(wú)關(guān)。為了給每個(gè)掩碼分配一個(gè)類標(biāo)簽 c,作者將聚類算法(例如,K-means)應(yīng)用于掩碼圖像的輸出 [CLS] token。現(xiàn)在,可以通過(guò)以下目標(biāo)函數(shù)訓(xùn)練 Mask R-CNN:


    其中表示預(yù)測(cè)的類、邊界框和掩碼。重要的是,經(jīng)過(guò)訓(xùn)練的模型預(yù)測(cè)每個(gè)圖像的多個(gè)對(duì)象掩碼候選者及其相關(guān)的置信度分?jǐn)?shù)。作者利用這些預(yù)測(cè)作為偽ground-truth來(lái)訓(xùn)練下一節(jié)中的分割模型。

    3.3 Training a Segmentation Model from Noisy Object Mask Candidates

    考慮一組圖像及其對(duì)應(yīng)的對(duì)象掩碼候選和置信度分?jǐn)?shù)。一些掩碼將不可避免地分配到錯(cuò)誤的集群或不會(huì)與對(duì)象或部分對(duì)齊。有趣的是,作者通過(guò)實(shí)驗(yàn)觀察到模型非常confident的掩碼往往是正確的。與以前的方法不同,這使模型能夠利用置信度分?jǐn)?shù)來(lái)抑制先前噪聲的影響。

    具體來(lái)說(shuō),只接受來(lái)自 Mask R-CNN 超過(guò)閾值 τ 作為的置信預(yù)測(cè)。最后,模型聚合屬于同一圖像的掩碼以獲得每個(gè)圖像的初始語(yǔ)義分割。當(dāng)兩個(gè)候選重疊時(shí),模型只保留最confident的掩碼。構(gòu)建的掩碼用作偽ground-truth來(lái)訓(xùn)練語(yǔ)義分割模型。

    最后,作者訓(xùn)練了一個(gè)語(yǔ)義分割模型,參數(shù)化權(quán)重為θ。該函數(shù)用softmax 操作,以對(duì)集群執(zhí)行軟分配。為了克服類不平衡,同時(shí)獲得細(xì)粒度的分割結(jié)果,作者采用了難像素挖掘策略。在每batch中選擇前 k 個(gè)最困難的像素來(lái)訓(xùn)練。特別是,目標(biāo)函數(shù)變?yōu)椋?/span>


    如果像素 i 屬于 c 類,則獲得的分割掩碼為 1,否則為 0。



          04      

    實(shí)驗(yàn)



    上表分析了 MaskDistill 的不同組件對(duì) PASCAL 的 val 集的影響。通過(guò) K-means 對(duì)初始對(duì)象掩碼進(jìn)行聚類時(shí),實(shí)現(xiàn)了 39.0% mIoU(第一行)。對(duì)象掩碼是通過(guò)自監(jiān)督視覺(jué)Transformer的親和圖獲得的。當(dāng)使用使用初始對(duì)象掩碼(從 39.0% 到 42.0% mIoU - 第二行)訓(xùn)練的 Mask R-CNN 模型進(jìn)行預(yù)測(cè)時(shí),結(jié)果會(huì)得到進(jìn)一步改進(jìn)。

    這表明本文的對(duì)象掩碼候選者捕獲了高級(jí)對(duì)象信息,這很難通過(guò)手工制作的先驗(yàn)來(lái)實(shí)現(xiàn)。最后,作者利用 Mask R-CNN 預(yù)測(cè)的置信度分?jǐn)?shù)。結(jié)果表明,通過(guò)僅使用來(lái)自 Mask R-CNN 的可靠對(duì)象掩碼候選,分割結(jié)果從 42.0% 提高到 45.8% mIoU。


    上圖量化了在初始對(duì)象掩碼的 K-means 聚類期間更改簇 C 數(shù)量的影響。


    上圖顯示了 top-k 選擇的影響。為了減輕虛假細(xì)節(jié)(例如背景雜波)的影響,作者在中選擇與最具辨別力的patch token相對(duì)應(yīng)的前 k 個(gè)patch。


    上圖研究了選擇具有閾值 τ 的最confident的對(duì)象掩碼候選者的影響。


    上表將本文的結(jié)果與 PASCAL 驗(yàn)證集上的 state-of-theart 進(jìn)行了比較。MaskDistill 在線性分類器設(shè)置下的表現(xiàn)始終優(yōu)于先前的工作。


    上圖展示了本文方法在PASCAL 數(shù)據(jù)集上的定性結(jié)果。


    上表將本文的結(jié)果與其他兩種無(wú)監(jiān)督對(duì)象掩碼生成方法進(jìn)行了比較:DINO和 LOST。


    上圖顯示了COCO20k 上的幾個(gè)示例,其中本文的方法可以檢索每個(gè)圖像的多個(gè)高質(zhì)量對(duì)象掩碼。


          05      

    總結(jié)
    本文提出了一個(gè)新的無(wú)監(jiān)督語(yǔ)義分割框架。它首先從自監(jiān)督的視覺(jué)Transformer中提取對(duì)象掩碼。接下來(lái),它通過(guò)利用最confident的對(duì)象掩碼候選作為像素分組先驗(yàn)來(lái)學(xué)習(xí)語(yǔ)義分割模型。該策略解決了先前工作中存在的幾個(gè)限制。

    首先,本文的方法以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)像素分組先驗(yàn),而不是通過(guò)手工制作的先驗(yàn)。其次,分割模型不鎖定低級(jí)圖像特征,而是學(xué)習(xí)對(duì)象級(jí)信息。第三,本文的方法可以更好地處理具有多個(gè)對(duì)象的圖像。最后,廣泛的實(shí)驗(yàn)評(píng)估表明,本文的方法明顯優(yōu)于最先進(jìn)的方法。

    毫無(wú)疑問(wèn),本文的工作仍然存在一些局限性。首先,尚不清楚自監(jiān)督視覺(jué)Transformer的預(yù)訓(xùn)練數(shù)據(jù)集如何影響對(duì)象掩碼的質(zhì)量。有趣的是,最近的研究表明,可以使用以對(duì)象和場(chǎng)景為中心的數(shù)據(jù)集來(lái)學(xué)習(xí)空間結(jié)構(gòu)化表示。這一觀察表明,在精選數(shù)據(jù)集(例如 ImageNet)上訓(xùn)練Transformer并不重要。此外,還可以通過(guò)擴(kuò)展預(yù)訓(xùn)練數(shù)據(jù)集和模型的大小來(lái)改進(jìn)結(jié)果。

    參考資料

    [1]https:///abs/2206.06363
    [2]https://github.com/wvangansbeke/MaskDistill

    ▊ 作者簡(jiǎn)介
    研究領(lǐng)域:FightingCV公眾號(hào)運(yùn)營(yíng)者,研究方向?yàn)槎嗄B(tài)內(nèi)容理解,專注于解決視覺(jué)模態(tài)和語(yǔ)言模態(tài)相結(jié)合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應(yīng)用。

    END

      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 69天堂人成无码免费视频| 中文字幕亚洲制服在线看| 日韩国产中文字幕精品| 嫩草成人AV影院在线观看| 18禁美女裸体爆乳无遮挡| 中文字幕在线国产精品| 97夜夜澡人人爽人人模人人喊| 成人H动漫精品一区二区无码| 午夜大片免费男女爽爽影院| 无码一区二区三区中文字幕| 深夜释放自己在线观看| 老少配老妇老熟女中文普通话| 日韩欧美一卡2卡3卡4卡无卡免费2020| 国产网友愉拍精品视频手机| AV无码国产在线看免费网站| 亚洲人成电影在线天堂色| 亚洲熟妇自偷自拍另欧美| 亚洲欧洲精品一区二区| 国产日产欧产精品精乱了派| 成年女人18级毛片毛片免费| 视频一区视频二区制服丝袜 | 国产亚洲一二三区精品| 狠狠躁夜夜躁人人爽天天天天| 99久久er热在这里只有精品99| 国产AV无码专区亚洲AV漫画| 在线一区二区中文字幕| 成人免费看片又大又黄| 久青草国产在视频在线观看| 亚洲国产AV无码精品无广告| 欧美中文字幕无线码视频| 国产中文字幕在线一区| 亚洲AV中文无码乱人伦| 欧美熟妇乱子伦XX视频| 国产精品亚洲二区在线看| 亚洲爆乳少妇无码激情| 亚洲色最新高清AV网站| 亚洲国产精品无码中文LV| 插插无码视频大全不卡网站| 亚洲AV国产福利精品在现观看| 欧美xxxx做受欧美.88| 国产精品国产三级国AV|