久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    ETP:精確時序動作定位

     極市平臺 2021-01-26

    論文地址:https:///abs/1804.04803

    背景介紹

    時序動作檢測,指的是在一段untrimmed video中找到感興趣動作發(fā)生的起止時間,同時知道這個動作的具體類別。

    目前主流的模型是three-stages,分別是時序動作提名,即先提出一些可能包含動作的時序段,以減少直接采用滑動窗方法帶來的計算量;然后在提出的這些proposal基礎上,進行微調(diào),通常是采用regression的方式;最后,在得到所有可能包含的proposal后,對每一個proposal做分類,得到最終結果。

    這個目前的準確率在IOU=0.5的情況下還處于比較低的水平,而主要原因是當前模型提出的proposal質(zhì)量不高,而在action recognition方面,UCF101數(shù)據(jù)集上已經(jīng)取得了98%的準確率。

    主要貢獻

    提出了three-phase的evolving temporal proposal模型ETP),引入了non-local pyramid features,該方法實現(xiàn)了目前state-of-the-arts。

    模型結構

    EPT網(wǎng)絡由三個子網(wǎng)絡組成,Actionness Network:在frame level上得出每一個frame的包含動作的置信概率,即actionness score;Refinement Network:在前一步基礎上,通過regression來調(diào)整proposal,得到更精確的邊界;Localization Network:同樣是refine。具體看各個子網(wǎng)絡:

    • Actionness Network:

    這個網(wǎng)絡和[3]中提出的TAG方法(如下圖)是一樣的。AN本身是一個分類網(wǎng)絡,目的是為了得到frame-level class-specific actionness,也就是當前幀包含動作的概率值。分類網(wǎng)絡對網(wǎng)絡結構沒有要求,本文采用的是預訓練的ResNet模型。

    在得到了每一幀的score后,通過聚類的方法,將離散的score組合,得到proposal,然后用非極大值抑制(NMS)剔除多余proposal。聚類方法見下圖。

    • Refinement Network:

    與Actionness Network在frame-level上考慮不同,Refinement Network從unit-level上考慮,這樣做的原因是,在refine環(huán)節(jié),為了減少邊界本身模糊性的影響,[2]實驗發(fā)現(xiàn)在coarse-grained是做回歸比在frame-level上做回歸更有效和穩(wěn)定。同時考慮context信息,即proposal周邊的units,方式和[3]SSN一致。

    與[2]中使用Two-Stream特征作為unit特征不同,Refinement Network使用non-local pyramid features作為unit特征。另外與[2]的差異在于,[2]在提取unit特征后,直接在unit-level上通過full connected layers做regression,而這里則是把unit特征輸入到RNN-based sequence encoder中,然后把經(jīng)過編碼后的context feature再去做regression,回歸的是proposal的中心坐標和proposal的長度([2]中回歸的是offset)。這里RNN采用[4]中提出的BiGRU,GRU在這不做說明。

    Refinement Network采用的loss函數(shù)為:

    c代表proposal的中心坐標,s代表proposal的長度。N包含positive和incomplete的proposal。

    • Localization Network:

    在Refinement Network得到新的proposal后,采用[3]中SSN作為backbone,如上圖[3],在最后一層加入non-local block[5],其中non-local block[5]以residual connection[6]形式存在。具體細節(jié)請參閱[3],這里不再敘述。

    實驗

    • 實驗細節(jié)

    (1)Actionness Network中采用在Image-Net上預訓練后并且在UCF101上fine-tune的RseNet-34作為base-bone。

    (2)Refinement Network中使用2 BiGRU cells,每一個包含512個隱藏單元。

    (3)Localization Network中使用在Kinetics上預訓練的Inception-V3作為base-bone。

    • 對比實驗

    可以看到,ETP方法在IOU大于0.3之后的準確率高于所有主流方法,而且提升了很多。

    文中還做了幾個比較細致的對比實驗。

    (1)Refinement Network的效果。

    (2)Unit長度的影響。

    (3)Non-local pyramid feature的影響。

    (4)多模態(tài)的影響。

    其中(2)已經(jīng)在TURN-TAP中被探索過了,unit長度大約在32左右會有最好效果。而(4)幾乎已經(jīng)是視頻領域共識了,任何主流模型,RGB+Flow都要好于單RGB,這里不再多說。

    值得注意的是,在增加了Refinement Network的情況下,在各個類別上的效果并沒有明顯的提升,甚至在一些類別下降了。

    Refinement Network中主要是增加了RNN模塊。所以原因可能是來自RNN本身(單純基于RNN的方法一直沒有取得明顯進展),也有可能是Refinement Network和Localization Network都在做refine,Localization Network起決定性的作用。

    而Non-local feature則在各個類別上基本都實現(xiàn)了提升,原因可能來自unit與unit之間增加了更多響應,有利于網(wǎng)絡學習到它們之間的聯(lián)系。但這樣無疑也增加了很大計算量。

    個人見解

    • 論文亮點

    個人認為亮點主要來自兩方面:

    (1)引入了non-local feature,對比實驗也證明,non-local feature能夠帶來效果上的提升。

    (2)一個模型內(nèi)同時融入了很多主流的tricks,并且實驗效果很驚人,在IOU=0.5的情況下,相比TURN-TAP提升近10%,超過TAG6%,比去年state-of-the-arts的CBR(TURN-TAP同一作者)仍高出近3%。

    • 個人看法:

    熟悉這個領域的同學知道,這篇文章集成了很多主流方法的核心。

    例如Actionness Network其實就是SSN中提出的TAG方法;unit-level上做regression效果比frame-level上要好這一點也在TURN-TAP中首先得到了使用;pyramid特征來獲得context information也是早就被應用的trick;non-local feature應該也有人嘗試過。

    所以整個模型其實可以看成是TAG+TURN-TAP+LSTM的組合拳,效果喜人。

    • 存在的問題:

    (1)數(shù)據(jù)本身:

    (1.1):一方面動作本身的邊界是模糊的,這就表明主流數(shù)據(jù)集上的label首先就不是完全可靠的,而用這樣的數(shù)據(jù)學習出來的模型肯定是有問題的。

    (1.2):另一方面,視頻數(shù)據(jù)通常有兩種:固定攝像頭拍攝(監(jiān)控視頻異常行為檢測),非固定攝像頭拍攝(電視節(jié)目精彩片段提取)。現(xiàn)在數(shù)據(jù)集沒有針對這兩者做區(qū)分可能也是存在問題的。

    比如固定攝像頭情況下,檢測邊界的難點可能來自動作本身的模糊性;而非固定攝像頭拍攝情況下,數(shù)據(jù)存在噪聲,比如被標記為跳水的視頻段,可能是由【跳水+觀眾席+跳水】組成的,由于攝像頭本身的移動,沒有一個對準主體對象,中間的背景信息沒有被處理,也被標記了,這樣學習出來的特征可能也存在問題。

    (2)模型本身

    如何提取有效的temporal特征是模型需要考慮的最大問題,這個也是目前主流論文著手解決的問題。

    通常方法有三種,C3D衍生的3D模型、Two-Stream模型、RNN模型。但這三種方法都沒有取得像2D卷積在圖像上取得的進展。同時temporal特征的可解釋性低,有時候網(wǎng)絡效果很好,但很難說明網(wǎng)絡到底學到了什么。

    參考文獻

    [1] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 2017.Cascaded Boundary Regression for Temporal Action Detection. arXiv:1705.01180 (2017).

    [2] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia. 2017.TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals. In International Conference on Computer Vision (ICCV). 3648–3656. 

    [3] Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and Dahua Lin. 2017. Temporal Action Detection With Structured Segment Networks. In International Conference on Computer Vision (ICCV).
    [4] Mike Schuster and Kuldip K Paliwal. 1997. Bidirectional recurrent neural net- works. IEEE Transactions on Signal Processing 45, 11 (1997), 2673–2681.
    [5] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2017. Non-local Neural Networks. arXiv:1711.07971 (2017).
    [6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 770–778.

      轉藏 分享 獻花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 国产激情视频在线观看的| AV在线亚洲欧洲日产一区二区| 成人午夜电影福利免费| 国内精品伊人久久久久影院对白| 久久精品人人做人人爽电影蜜月 | 草草影院精品一区二区三区| 亚洲午夜无码久久久久蜜臀av| 漂亮人妻中文字幕丝袜| 国产AV午夜精品一区二区三区 | 色婷婷久久综合中文久久一本 | 69天堂人成无码免费视频| 精品国产一区AV天美传媒| 日日碰狠狠添天天爽五月婷| 国产线播放免费人成视频播放| 久热爱精品视频线路一| 国产中文字幕精品在线| 综合图区亚洲欧美另类图片| 日日躁夜夜躁狠狠躁超碰97| 亚洲色大成网站WWW久久| 国产精品日本一区二区在线播放 | 亚洲日韩欧洲无码AV夜夜摸| 午夜福利片1000无码免费| 久久国产加勒比精品无码| 成人午夜大片免费看爽爽爽| 少妇愉情理伦片BD| 2021亚洲国产精品无码| 国产老熟女狂叫对白| 影音先锋啪啪av资源网站| 中文字幕一卡二卡三卡| 国产一区二区波多野结衣| 欧美亚洲综合成人A∨在线| 欧美大胆老熟妇乱子伦视频| 久久精品人妻无码专区| 亚洲午夜无码久久久久蜜臀av| 国产好大好硬好爽免费不卡| 樱花草视频www日本韩国| 强奷乱码中文字幕| 国产睡熟迷奷系列网站| 少妇被躁爽到高潮无码人狍大战| 正在播放酒店约少妇高潮| 无码囯产精品一区二区免费|