在本文中,作者總結了針對視頻和語言理解評估(VALUE)挑戰的方法。作者提出了一種CLIP增強方法 ,將圖像文本預訓練知識融入到下游視頻文本任務中。結合其他幾項改進的設計,本文的方法在VALUE基準上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。  A CLIP-Enhanced Method for Video-Language Understanding
論文地址:https:///abs/2110.07137 代碼地址:未開源 視頻語言理解越來越受到研究界的關注。最近,NeurIPS2021上提出了視頻和語言理解評估(VALUE)基準,這是一個由3類任務(VideoQA, Retrieval, Captioning)和11個數據集組成的統一基準。不同的視頻領域和任務類型使其成為一個非常具有挑戰性的基準。 受大規模圖像-文本預訓練(如CLIP)快速發展的啟發,作者認為從圖像-文本對中學習的知識將有助于視頻文本任務。一些開創性的作品利用了預訓練CLIP模型,并展示了在文本視頻檢索任務上的SOTA性能。然而,這些現有的工作是專門為檢索任務設計的,因此不能適應其他類型的任務。作者將預訓練好的圖像文本知識(即CLIP模型)納入任務無關框架(即HERO模型),并在各種下游任務(如Retrieval, Captioning)上取得顯著的性能改進。結合一些trick,本文提出了一種VALUE基準的混合策略,比baseline高出2.4%的Meta Ave分數。總的來說,本文的策略在兩個方面不同于HERO Baseline:1)修改了模型架構,以納入CLIP模型的知識 ,如上圖所示;2)對于不同的下游任務,作者使用不同的微調設置 。
本文的方法建立在HERO模型的基礎上,HERO模型是基于VALUE基準的baseline模型。在本節中,作者首先簡要介紹HERO方法,然后介紹本文改進的設計。 3.1. Baseline Method
2)一種用于視頻字幕多模態融合和查詢表示的跨模態Transformer ; 3)用于從收集的視頻特征學習上下文視頻表示的時間Transformer 。
在HERO中需要處理四個預訓練任務(如下所示),MFM(Masked Frame Modeling )和MLM(Masked Language Modeling )與BERT相似,將單詞token和幀token用mask token替換之后,在預訓練的過程中根據上下文來重建這些被mask的token的信息。此外,在訓練的時候只mask一個模態,降低訓練的難度。VSM(Video-Subtitle Matching )旨在學習局部對齊(在視覺幀和字幕句子之間)和全局對齊(在視頻片段和字幕句子序列之間)。FOM(Frame Order Modeling )是通過學習隨機重排序幀的原始順序來建模視頻的順序特征的。
3.2. Improved Designs 除了VATEX-EN-R和VATEX-EN-C之外,作者在所有任務中都遵循HERO的結構。對于VATEX任務,作者通過將默認的Roberta文本嵌入層替換為CLIP的文本編碼器,構建了CLIP增強的模型,如上圖所示。 1)對于QA任務,作者采用全任務訓練(AT)設置;對于其他任務,作者采用單任務訓練(ST)設置。2)對于yc2r、yc2c、how2r任務,作者使用resnet+slowfast特征,而對于其他任務,作者使用clipvit+slowfast特征。這些視覺特征主要由VALUE挑戰提供。 3)對于yc2r、yc2c、tvc任務,作者使用訓練集和驗證集數據進行網絡調整。 4)作者使用除CLIP增強設置(即VATEX-EN-R和VATEX-EN-C任務)之外的所有任務的HERO預訓練權重初始化模型。 在預訓練或網絡微調期間,作者沒有使用額外的數據或特征,也沒有使用模型集成技術。4.1. Results on Test (leaderboard) Set 應用上面所述的所有改進設計,與baseline相比,本文的混合策略實現了顯著改進,如上表所示。
4.2. Analysis of our CLIP-Enhanced Strategy 為了評估本文的CLIP增強策略的效果,作者在VATEX-EN-R和VATEX-EN-C驗證集上,將本文的方法與SOTA的方法進行比較,結果如上表所示。 除了VATEX-EN-R任務的AT→ST baseline外,本文的CLIP增強方法實現了最佳性能。然而,在檢查訓練細節后,作者發現,最初的改進確實來自所有任務訓練(AT)期間的數據泄漏,即VATEX-EN-R任務的驗證樣本意外包含在VATEX-EN-C任務的訓練集中。剔除不公平的高分后(標有*),本文的CLIP增強方法取得了最佳性能,明顯優于基線(VATEXN-R為2%,VATEX-EN-C為3%)。然而,作者觀察到,本文的CLIP增強方法對于其他類型的數據集(例如how2、tv)是失敗的。主要原因似乎是how2或tv數據集與CLIP模型預訓練的圖像-文本對大不相同。今年年初提出的CLIP模型通過簡單的結構、大規模的圖文預訓練,實現了非常好的將圖片和文本映射到相同語義空間的能力。目前,也有不少的工作嘗試將CLIP學習到圖文知識遷移到視頻-文本中。 在本文中,作者也嘗試了將CLIP的知識遷移到VALUE這個視頻-文本的多任務基準上,因此,作者基于HERO模型,將CLIP的預訓練的結構和參數加入到HERO模型中,達到了顯著的性能提升。本文中,相對來說,作者的改進還是非常簡單的,只是將文本編碼器做了一下替換。相信在接下來的一段時間里,CLIP作者泛化能力超強的視覺語言模型,將會進推動多模態領域的一步發展。研究領域:FightingCV公眾號運營者,研究方向為多模態內容理解,專注于解決視覺模態和語言模態相結合的任務,促進Vision-Language模型的實地應用。知乎/公眾號:FightingCV
|