久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    用CLIP增強視頻語言的理解,在VALUE榜單上SOTA!

     我愛計算機視覺 2021-12-18

     寫在前面

    在本文中,作者總結了針對視頻和語言理解評估(VALUE)挑戰的方法。作者提出了一種CLIP增強方法 ,將圖像文本預訓練知識融入到下游視頻文本任務中。結合其他幾項改進的設計,本文的方法在VALUE基準上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。

     1. 論文和代碼地址

    A CLIP-Enhanced Method for Video-Language Understanding

    論文地址:https:///abs/2110.07137

    代碼地址:未開源

     2. Motivation

    視頻語言理解越來越受到研究界的關注。最近,NeurIPS2021上提出了視頻和語言理解評估(VALUE)基準,這是一個由3類任務(VideoQA, Retrieval, Captioning)和11個數據集組成的統一基準。不同的視頻領域和任務類型使其成為一個非常具有挑戰性的基準。

    受大規模圖像-文本預訓練(如CLIP)快速發展的啟發,作者認為從圖像-文本對中學習的知識將有助于視頻文本任務。一些開創性的作品利用了預訓練CLIP模型,并展示了在文本視頻檢索任務上的SOTA性能。然而,這些現有的工作是專門為檢索任務設計的,因此不能適應其他類型的任務。
    作者將預訓練好的圖像文本知識(即CLIP模型)納入任務無關框架(即HERO模型),并在各種下游任務(如Retrieval, Captioning)上取得顯著的性能改進。結合一些trick,本文提出了一種VALUE基準的混合策略,比baseline高出2.4%的Meta Ave分數。
    總的來說,本文的策略在兩個方面不同于HERO Baseline:
    1)修改了模型架構,以納入CLIP模型的知識 ,如上圖所示;

    2)對于不同的下游任務,作者使用不同的微調設置 。

     3. 方法

    本文的方法建立在HERO模型的基礎上,HERO模型是基于VALUE基準的baseline模型。在本節中,作者首先簡要介紹HERO方法,然后介紹本文改進的設計。

    3.1. Baseline Method

    如上圖所示,HERO由三個核心組件組成:
    1)用于文本輸入的嵌入層 ;

    2)一種用于視頻字幕多模態融合和查詢表示的跨模態Transformer ;

    3)用于從收集的視頻特征學習上下文視頻表示的時間Transformer 。

    在HERO中需要處理四個預訓練任務(如下所示),MFM(Masked Frame Modeling )和MLM(Masked Language Modeling )與BERT相似,將單詞token和幀token用mask token替換之后,在預訓練的過程中根據上下文來重建這些被mask的token的信息。
    此外,在訓練的時候只mask一個模態,降低訓練的難度。VSM(Video-Subtitle Matching )旨在學習局部對齊(在視覺幀和字幕句子之間)和全局對齊(在視頻片段和字幕句子序列之間)。FOM(Frame Order Modeling )是通過學習隨機重排序幀的原始順序來建模視頻的順序特征的。

    3.2. Improved Designs

    除了VATEX-EN-R和VATEX-EN-C之外,作者在所有任務中都遵循HERO的結構。對于VATEX任務,作者通過將默認的Roberta文本嵌入層替換為CLIP的文本編碼器,構建了CLIP增強的模型,如上圖所示。
    作者在調整不同任務時使用略有不同的設置:
    1)對于QA任務,作者采用全任務訓練(AT)設置;對于其他任務,作者采用單任務訓練(ST)設置。

    2)對于yc2r、yc2c、how2r任務,作者使用resnet+slowfast特征,而對于其他任務,作者使用clipvit+slowfast特征。這些視覺特征主要由VALUE挑戰提供。

    3)對于yc2r、yc2c、tvc任務,作者使用訓練集和驗證集數據進行網絡調整。

    4)作者使用除CLIP增強設置(即VATEX-EN-R和VATEX-EN-C任務)之外的所有任務的HERO預訓練權重初始化模型。

    在預訓練或網絡微調期間,作者沒有使用額外的數據或特征,也沒有使用模型集成技術。

     4.實驗

    4.1. Results on Test (leaderboard) Set

    應用上面所述的所有改進設計,與baseline相比,本文的混合策略實現了顯著改進,如上表所示。

    4.2. Analysis of our CLIP-Enhanced Strategy

    為了評估本文的CLIP增強策略的效果,作者在VATEX-EN-R和VATEX-EN-C驗證集上,將本文的方法與SOTA的方法進行比較,結果如上表所示。
    除了VATEX-EN-R任務的AT→ST baseline外,本文的CLIP增強方法實現了最佳性能。然而,在檢查訓練細節后,作者發現,最初的改進確實來自所有任務訓練(AT)期間的數據泄漏,即VATEX-EN-R任務的驗證樣本意外包含在VATEX-EN-C任務的訓練集中。
    剔除不公平的高分后(標有*),本文的CLIP增強方法取得了最佳性能,明顯優于基線(VATEXN-R為2%,VATEX-EN-C為3%)。
    然而,作者觀察到,本文的CLIP增強方法對于其他類型的數據集(例如how2、tv)是失敗的。主要原因似乎是how2或tv數據集與CLIP模型預訓練的圖像-文本對大不相同。

     5. 總結

    今年年初提出的CLIP模型通過簡單的結構、大規模的圖文預訓練,實現了非常好的將圖片和文本映射到相同語義空間的能力。目前,也有不少的工作嘗試將CLIP學習到圖文知識遷移到視頻-文本中。

    在本文中,作者也嘗試了將CLIP的知識遷移到VALUE這個視頻-文本的多任務基準上,因此,作者基于HERO模型,將CLIP的預訓練的結構和參數加入到HERO模型中,達到了顯著的性能提升。
    本文中,相對來說,作者的改進還是非常簡單的,只是將文本編碼器做了一下替換。相信在接下來的一段時間里,CLIP作者泛化能力超強的視覺語言模型,將會進推動多模態領域的一步發展。

    ▊ 作者簡介

    研究領域:FightingCV公眾號運營者,研究方向為多模態內容理解,專注于解決視覺模態和語言模態相結合的任務,促進Vision-Language模型的實地應用。

    知乎/眾號:FightingCV

    END

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章

      主站蜘蛛池模板: 深夜在线观看免费av| 中国女人高潮hd| 亚洲JIZZJIZZ中国少妇中文| 国产成人亚洲综合图区| 亚洲日韩国产精品第一页一区| 亚洲AV无码成人精品区| 亚洲欧美日韩愉拍自拍美利坚| 亚洲成AV人片在线观看WV| 日韩人妻无码一区二区三区| 亚洲欧美中文字幕日韩一区二区 | 亚洲欧洲日产国无高清码图片| 久久精品国产亚洲精品2020| 天堂中文8资源在线8| 国产乱妇乱子在线视频 | 人妻激情乱人伦视频| 久久综合97丁香色香蕉| 亚洲欧洲日产国码无码AV喷潮| 亚洲AV无码专区在线播放中文| 成人网站免费观看永久视频下载| 亚韩精品中文字幕无码视频| 成年在线观看免费人视频| 日日躁夜夜躁狠狠躁超碰97| 国产丝袜在线精品丝袜不卡| 永久免费av网站可以直接看的| 日产精品一卡2卡三卡四乱码| 人妻中文字幕亚洲一区| 99久久99久久免费精品小说| 欧美成人午夜在线观看视频| 无码高潮爽到爆的喷水视频| 国内揄拍国内精品人妻 | 丰满少妇高潮无套内谢| 一区二区和激情视频| 国产亚洲精品VA片在线播放| 国产又粗又猛又黄又爽无遮挡 | 国产精品无码日韩欧| 亚洲精品无码成人A片九色播放| 熟妇人妻中文字幕| 国产乱人伦AV在线麻豆A| 成人看的污污超级黄网站免费| 国产欧美一区二区精品久久久| 国产精品无码一区二区三区电影|