【原】用CLIP增強視頻語言的理解，在VALUE榜單上SOTA！

我愛計算機視覺 2021-12-18

展開全文

▊ 寫在前面

在本文中，作者總結了針對視頻和語言理解評估（VALUE）挑戰的方法。作者提出了一種CLIP增強方法 ，將圖像文本預訓練知識融入到下游視頻文本任務中。結合其他幾項改進的設計，本文的方法在VALUE基準上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。

▊ 1. 論文和代碼地址

A CLIP-Enhanced Method for Video-Language Understanding

論文地址：https:///abs/2110.07137

代碼地址：未開源

▊ 2. Motivation

視頻語言理解越來越受到研究界的關注。最近，NeurIPS2021上提出了視頻和語言理解評估（VALUE）基準，這是一個由3類任務（VideoQA, Retrieval, Captioning）和11個數據集組成的統一基準。不同的視頻領域和任務類型使其成為一個非常具有挑戰性的基準。

受大規模圖像-文本預訓練（如CLIP）快速發展的啟發，作者認為從圖像-文本對中學習的知識將有助于視頻文本任務。一些開創性的作品利用了預訓練CLIP模型，并展示了在文本視頻檢索任務上的SOTA性能。然而，這些現有的工作是專門為檢索任務設計的，因此不能適應其他類型的任務。

作者將預訓練好的圖像文本知識（即CLIP模型）納入任務無關框架（即HERO模型），并在各種下游任務（如Retrieval, Captioning）上取得顯著的性能改進。結合一些trick，本文提出了一種VALUE基準的混合策略，比baseline高出2.4%的Meta Ave分數。

總的來說，本文的策略在兩個方面不同于HERO Baseline：

1）修改了模型架構，以納入CLIP模型的知識 ，如上圖所示；

2）對于不同的下游任務，作者使用不同的微調設置 。

▊ 3. 方法

本文的方法建立在HERO模型的基礎上，HERO模型是基于VALUE基準的baseline模型。在本節中，作者首先簡要介紹HERO方法，然后介紹本文改進的設計。

3.1. Baseline Method

如上圖所示，HERO由三個核心組件組成：

1）用于文本輸入的嵌入層 ；

2）一種用于視頻字幕多模態融合和查詢表示的跨模態Transformer ；

3）用于從收集的視頻特征學習上下文視頻表示的時間Transformer 。

在HERO中需要處理四個預訓練任務（如下所示），MFM（Masked Frame Modeling ）和MLM（Masked Language Modeling ）與BERT相似，將單詞token和幀token用mask token替換之后，在預訓練的過程中根據上下文來重建這些被mask的token的信息。

此外，在訓練的時候只mask一個模態，降低訓練的難度。VSM（Video-Subtitle Matching ）旨在學習局部對齊（在視覺幀和字幕句子之間）和全局對齊（在視頻片段和字幕句子序列之間）。FOM（Frame Order Modeling ）是通過學習隨機重排序幀的原始順序來建模視頻的順序特征的。