寫在前面 因為Transformer最開始被提出時是用來處理序列信息的,所以grid特征需要flatten之后才能送入到Transformer的Encoder中,這就導致了特征的二維相對位置信息被破壞;第二,由于有的單詞是跟圖片內容緊密相關的,而有的單詞(比如 with)跟圖片相關性不大,因此模型在生成單詞的時候同等的關注視覺信息就會導致sub-optimal的問題。 為了解決這兩個問題,作者提出了GA和AA兩個模塊,并將這兩個模塊嵌入到Transformer中形成RSTNet,在COCO數據集達到了SOTA的性能。 Image Captioning任務是什么? Image Captioning 任務的定義是給定一幅圖片,生成用來描述圖片內容的文本。一個AI系統不僅需要對圖片進行識別,也需要理解和解釋看到的圖片內容,并且能夠像人一樣描述出圖片中的對象之間的關系。 論文和代碼地址 論文:https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_RSTNet_Captioning_With_Adaptive_Attention_on_Visual_and_Non-Visual_Words_CVPR_2021_paper.html 代碼:https://github.com/zhangxuying1004/RSTNet Motivation 這就會導致一個問題,原來二維的圖像特征變成一維的序列特征,空間信息丟失,造成sub-optimal的問題,因此作者提出了Grid-Augmented(GA) module,用grid之間的相對位置信息來增強特征的視覺表示。 Transformer能夠捕捉視覺特征和序列之間的關系。然而,并非caption中的所有單詞都是視覺單詞,因此對所有單詞都都相同程度的關注就會導致sub-optimal的問題(如上圖b所示,很明顯man是一個視覺單詞,所以在生成的句子的時候應該更加關注這類單詞,而with這種單詞跟圖像內容并沒有什么關系,只需要根據語言的bias就可以學習到,所以這類單詞在生成的時候就并不需要特別關注 )。 基于這個現象,作者提出了Adaptive Attention(AA) module,用來衡量視覺信息和語言上下文信息對于生成細粒度caption的貢獻。 最終,作者將這兩個模塊嵌入到了Transformer中,得到RSTNet,在MS COCO數據上,在線上和線下測試中,達到了SOTA的性能。 方法 3.1. Grid Feature Representation對于給定的個grid,以前的transformer就是直接將他們flatten,然后送入到encoder中,但是這么做會損失二維的位置信息,因此作者提出了GA模塊,來建模相對位置關系。 首先,作者對每個grid都計算了一對二維的相對位置,其中為左上角的相對位置坐標,為右下角的相對位置坐標。然后根據左上角和右下角的相對位置坐標就可以計算相對中心坐標: 然后就可以獲得第i個grid和第j個grid的相對位置信息: 3.2. Language Feature Representation這個過程用公式可以表示為: 3.3. Relationship-Sensitive Transformer (RSTNet)3.3.1. Encoder3.3.2. Grid Augmented (GA) ModuleGA模塊用于增強grid特征的相對位置表示,因此,在Self-Attention的 Scaled Dot-Product Attention之后,作者還加入上面計算的相對位置表示,用公式可以表示為: 3.3.3. Decoder語言的序列信息,首先通過word embedding來處理,然后加入位置編碼,然后與Encoder最后一層輸出的特征進行融合,用來預測生成的序列,用公式可以表示為: 3.3.4. Adaptive Attention (AA) Module![]() 3.4. Visualness基于adaptive attention,作者提出了一個屬性visualness 。 ![]() 實驗 4.1. 消融實驗4.2. Offline Evaluation4.3. Comparison with strong baselines4.4. Online Evaluation4.5. Qualitative Analysis總結 作者發現Transformer在image captioning任務上處理grid特征,會有兩個缺點。第一,grid特征的二維相對位置信息被破壞了;第二,模型在生成單詞的時候并不一定需要關注視覺特征。 因此,作者提出了GA和AA兩個模塊來解決這個問題,并將這兩個模塊嵌入到Transformer中形成RSTNet,在COCO數據集上達到了SOTA的性能。 ![]() 備注:TFM Transformer交流群 Transformer等最新資訊,若已為CV君其他賬號好友請直接私信。 在看,讓更多人看到 |
|