久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    CVPR2021-RSTNet:自適應Attention的“看圖說話”模型

     我愛計算機視覺 2021-07-27
    0

    寫在前面

    由于強大的建模能力,Transformer結構被用在一系列CV、NLP、Cross-modal的任務中。但是基于grid特征,用Transformer結構處理Image Captioning任務時,會存在兩個問題。

    因為Transformer最開始被提出時是用來處理序列信息的,所以grid特征需要flatten之后才能送入到Transformer的Encoder中,這就導致了特征的二維相對位置信息被破壞;第二,由于有的單詞是跟圖片內容緊密相關的,而有的單詞(比如 with)跟圖片相關性不大,因此模型在生成單詞的時候同等的關注視覺信息就會導致sub-optimal的問題。

    為了解決這兩個問題,作者提出了GA和AA兩個模塊,并將這兩個模塊嵌入到Transformer中形成RSTNet,在COCO數據集達到了SOTA的性能。

    Image Captioning任務是什么?

    Image Captioning 任務的定義是給定一幅圖片,生成用來描述圖片內容的文本。一個AI系統不僅需要對圖片進行識別,也需要理解和解釋看到的圖片內容,并且能夠像人一樣描述出圖片中的對象之間的關系。


    1

    論文和代碼地址

    論文:https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_RSTNet_Captioning_With_Adaptive_Attention_on_Visual_and_Non-Visual_Words_CVPR_2021_paper.html代碼:https://github.com/zhangxuying1004/RSTNet

    2

    Motivation

    Image Captioning任務在特征使用方面,經歷了grid→region→grid的過程,本文作者采用了grid特征,但是由于本文采用的結構是一個transformer-based的模型,而transformer又是針對序列任務提出的,所以在transformer中使用grid特征就需要把特征flatten(如上圖a所示)

    這就會導致一個問題,原來二維的圖像特征變成一維的序列特征,空間信息丟失,造成sub-optimal的問題,因此作者提出了Grid-Augmented(GA) module,用grid之間的相對位置信息來增強特征的視覺表示。

    Transformer能夠捕捉視覺特征和序列之間的關系。然而,并非caption中的所有單詞都是視覺單詞,因此對所有單詞都都相同程度的關注就會導致sub-optimal的問題(如上圖b所示,很明顯man是一個視覺單詞,所以在生成的句子的時候應該更加關注這類單詞,而with這種單詞跟圖像內容并沒有什么關系,只需要根據語言的bias就可以學習到,所以這類單詞在生成的時候就并不需要特別關注 )。

    基于這個現象,作者提出了Adaptive Attention(AA) module,用來衡量視覺信息和語言上下文信息對于生成細粒度caption的貢獻。

    最終,作者將這兩個模塊嵌入到了Transformer中,得到RSTNet,在MS COCO數據上,在線上和線下測試中,達到了SOTA的性能。


    3

    方法

    上圖為RSTNet的總體結構,視覺特征用GA模塊增強視覺表示,語言signal是用預訓練的BERT模型提取,AA模塊用來衡量視覺和語言的signal對于預測詞語時的重要性。

    3.1. Grid Feature Representation

    對于給定的個grid,以前的transformer就是直接將他們flatten,然后送入到encoder中,但是這么做會損失二維的位置信息,因此作者提出了GA模塊,來建模相對位置關系。

    首先,作者對每個grid都計算了一對二維的相對位置,其中為左上角的相對位置坐標,為右下角的相對位置坐標。然后根據左上角和右下角的相對位置坐標就可以計算相對中心坐標

    然后就可以獲得第i個grid和第j個grid的相對位置信息:

    3.2. Language Feature Representation

    為了提取語言signal,作者采用了一個預訓練的BERT的模型,考慮到只能在測試階段訪問部分生成的句子信息,作者在BERT模型之上添加了一個類似于Transformer的mask注意模塊。模型結構如上圖所示。

    這個過程用公式可以表示為:

    作者用交叉熵損失函數來fine-tuning這個語言模型。在進行特征提取的時候,將所有參數凍結,mask注意模塊的輸出作為RSTNet中語言特征的表示。

    3.3. Relationship-Sensitive Transformer (RSTNet)

    3.3.1. Encoder

    Encoder中的特征提取與Transformer中相似,grid特征首先被flatten,然后用FC將通道維度embedding到512,后面接上Transformer的Encoder結構(Self-Attention+FFN),Self-ATtention過程的公式表示如下:

    3.3.2. Grid Augmented (GA) Module

    GA模塊用于增強grid特征的相對位置表示,因此,在Self-Attention的

    Scaled Dot-Product Attention之后,作者還加入上面計算的相對位置表示,用公式可以表示為:

    其中為相對位置的信息編碼信息。

    3.3.3. Decoder

    語言的序列信息,首先通過word embedding來處理,然后加入位置編碼,然后與Encoder最后一層輸出的特征進行融合,用來預測生成的序列,用公式可以表示為:

    該解碼過程可以看作是在部分生成的句子的序列特征的指導下合并視覺信息的過程,以得到當前單詞的hidden state的過程。然而,當前的單詞可能是一個非視覺化的單詞(比如with),在這種情況下生成預測單詞,語言上下文信息應該比視覺信號發揮更重要的作用。因此作者提出了AA模塊。

    3.3.4. Adaptive Attention (AA) Module

    作者在Transformer Decode之上構建了自適應注意模塊,傳統的Transformer直接根據hidden state進行單詞的預測,本文作者將在預測時候將language signal,visual signal和hidden state進行了融合,用來預測生成的單詞(如上圖所示),具體計算如下所示:

    3.4. Visualness

    基于adaptive attention,作者提出了一個屬性visualness

    定量地衡量了第t個單詞的可視化性程度。
    如上圖所示Visualness分數高的詞大多是可以被可視化的詞,Visualness分數低的詞大多是與圖片內容不是相關的詞語。

    4

    實驗

    4.1. 消融實驗

    上表為GA模塊和AA模塊在不同backbone(上面為ResNeXt101,下面為ResNeXt152)的消融實驗,可以看出GA模塊和AA模塊對于性能的提升都有促進作用。

    4.2. Offline Evaluation

    如上表所示,相比于其他方法,RSTNet在大多數指標上都能SOTA。

    4.3. Comparison with strong baselines

    為了消除特征的影響,作者在相同特征下也做了實驗,可以看出RSTNet在相同特征下也能取得比較好的性能。

    4.4. Online Evaluation

    在COCO線上的測試中,RSTNet在大多數指標上也能SOTA。

    4.5. Qualitative Analysis

    從上圖可以看出,相比于Baseline,RSTNet生成的句子會更加準確一些。

    5

    總結

    作者發現Transformer在image captioning任務上處理grid特征,會有兩個缺點。第一,grid特征的二維相對位置信息被破壞了;第二,模型在生成單詞的時候并不一定需要關注視覺特征。

    因此,作者提出了GA和AA兩個模塊來解決這個問題,并將這兩個模塊嵌入到Transformer中形成RSTNet,在COCO數據集上達到了SOTA的性能。

    備注:TFM

    Transformer交流群

    Transformer等最新資訊,若已為CV君其他賬號好友請直接私信。

    在看,讓更多人看到  

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 精品乱人伦一区二区三区| 四虎成人免费视频在线播放| 亚洲成年轻人电影网站WWW | 麻豆成人精品国产免费| 40岁大乳的熟妇在线观看| 国产精品自在线拍国产| 55大东北熟女啪啪嗷嗷叫| 欧美老熟妇乱子伦牲交视频| 后入内射国产一区二区| 在线 欧美 中文 亚洲 精品| 天天躁日日躁狠狠躁欧美老妇| 精品偷拍一区二区三区| 欧美人与动人物牲交免费观看| 公天天吃我奶躁我的在线观看| 福利视频在线一区二区| 无码人妻斩一区二区三区 | 四川丰满少妇无套内谢| 免费人成视频网站在线18| 亚洲AV成人中文无码专区| 久女女热精品视频在线观看| 亚洲中文字幕无码一久久区| 午夜高清福利在线观看| 成人无码视频97免费| 亚洲一本二区偷拍精品| 欧美人妻一区二区三区| 羞羞影院午夜男女爽爽免费视频| 亚洲人成无码WWW久久久| 国产综合有码无码中文字幕 | 午夜成人无码免费看网站| 人妻丰满AV无码中文字幕| 国产成人精彩在线视频| 欧美性受XXXX黑人XYX性爽| 久青草国产97香蕉在线视频| 宝贝腿开大点我添添公视频免| 国产综合色产在线精品| 色狠狠色噜噜AV一区| 人妻无码久久一区二区三区免费| 又爽又黄又无遮挡的激情视频| 亚洲精品一区二区妖精| 久久精品中文闷骚内射| 97无码人妻福利免费公开在线视频|