論文地址:https:///abs/1804.04803 背景介紹時序動作檢測,指的是在一段untrimmed video中找到感興趣動作發(fā)生的起止時間,同時知道這個動作的具體類別。 目前主流的模型是three-stages,分別是時序動作提名,即先提出一些可能包含動作的時序段,以減少直接采用滑動窗方法帶來的計算量;然后在提出的這些proposal基礎上,進行微調(diào),通常是采用regression的方式;最后,在得到所有可能包含的proposal后,對每一個proposal做分類,得到最終結果。 這個目前的準確率在IOU=0.5的情況下還處于比較低的水平,而主要原因是當前模型提出的proposal質(zhì)量不高,而在action recognition方面,UCF101數(shù)據(jù)集上已經(jīng)取得了98%的準確率。 主要貢獻提出了three-phase的evolving temporal proposal模型(ETP),引入了non-local pyramid features,該方法實現(xiàn)了目前state-of-the-arts。 模型結構EPT網(wǎng)絡由三個子網(wǎng)絡組成,Actionness Network:在frame level上得出每一個frame的包含動作的置信概率,即actionness score;Refinement Network:在前一步基礎上,通過regression來調(diào)整proposal,得到更精確的邊界;Localization Network:同樣是refine。具體看各個子網(wǎng)絡:
這個網(wǎng)絡和[3]中提出的TAG方法(如下圖)是一樣的。AN本身是一個分類網(wǎng)絡,目的是為了得到frame-level class-specific actionness,也就是當前幀包含動作的概率值。分類網(wǎng)絡對網(wǎng)絡結構沒有要求,本文采用的是預訓練的ResNet模型。 在得到了每一幀的score后,通過聚類的方法,將離散的score組合,得到proposal,然后用非極大值抑制(NMS)剔除多余proposal。聚類方法見下圖。
與Actionness Network在frame-level上考慮不同,Refinement Network從unit-level上考慮,這樣做的原因是,在refine環(huán)節(jié),為了減少邊界本身模糊性的影響,[2]實驗發(fā)現(xiàn)在coarse-grained是做回歸比在frame-level上做回歸更有效和穩(wěn)定。同時考慮context信息,即proposal周邊的units,方式和[3]SSN一致。 與[2]中使用Two-Stream特征作為unit特征不同,Refinement Network使用non-local pyramid features作為unit特征。另外與[2]的差異在于,[2]在提取unit特征后,直接在unit-level上通過full connected layers做regression,而這里則是把unit特征輸入到RNN-based sequence encoder中,然后把經(jīng)過編碼后的context feature再去做regression,回歸的是proposal的中心坐標和proposal的長度([2]中回歸的是offset)。這里RNN采用[4]中提出的BiGRU,GRU在這不做說明。 Refinement Network采用的loss函數(shù)為: c代表proposal的中心坐標,s代表proposal的長度。N包含positive和incomplete的proposal。
在Refinement Network得到新的proposal后,采用[3]中SSN作為backbone,如上圖[3],在最后一層加入non-local block[5],其中non-local block[5]以residual connection[6]形式存在。具體細節(jié)請參閱[3],這里不再敘述。 實驗
(1)Actionness Network中采用在Image-Net上預訓練后并且在UCF101上fine-tune的RseNet-34作為base-bone。 (2)Refinement Network中使用2 BiGRU cells,每一個包含512個隱藏單元。 (3)Localization Network中使用在Kinetics上預訓練的Inception-V3作為base-bone。
可以看到,ETP方法在IOU大于0.3之后的準確率高于所有主流方法,而且提升了很多。 文中還做了幾個比較細致的對比實驗。 (1)Refinement Network的效果。 (2)Unit長度的影響。 (3)Non-local pyramid feature的影響。 (4)多模態(tài)的影響。 其中(2)已經(jīng)在TURN-TAP中被探索過了,unit長度大約在32左右會有最好效果。而(4)幾乎已經(jīng)是視頻領域共識了,任何主流模型,RGB+Flow都要好于單RGB,這里不再多說。 值得注意的是,在增加了Refinement Network的情況下,在各個類別上的效果并沒有明顯的提升,甚至在一些類別下降了。 Refinement Network中主要是增加了RNN模塊。所以原因可能是來自RNN本身(單純基于RNN的方法一直沒有取得明顯進展),也有可能是Refinement Network和Localization Network都在做refine,Localization Network起決定性的作用。 而Non-local feature則在各個類別上基本都實現(xiàn)了提升,原因可能來自unit與unit之間增加了更多響應,有利于網(wǎng)絡學習到它們之間的聯(lián)系。但這樣無疑也增加了很大計算量。 個人見解
個人認為亮點主要來自兩方面: (1)引入了non-local feature,對比實驗也證明,non-local feature能夠帶來效果上的提升。 (2)一個模型內(nèi)同時融入了很多主流的tricks,并且實驗效果很驚人,在IOU=0.5的情況下,相比TURN-TAP提升近10%,超過TAG6%,比去年state-of-the-arts的CBR(TURN-TAP同一作者)仍高出近3%。
熟悉這個領域的同學知道,這篇文章集成了很多主流方法的核心。 例如Actionness Network其實就是SSN中提出的TAG方法;unit-level上做regression效果比frame-level上要好這一點也在TURN-TAP中首先得到了使用;pyramid特征來獲得context information也是早就被應用的trick;non-local feature應該也有人嘗試過。 所以整個模型其實可以看成是TAG+TURN-TAP+LSTM的組合拳,效果喜人。
(1)數(shù)據(jù)本身: (1.1):一方面動作本身的邊界是模糊的,這就表明主流數(shù)據(jù)集上的label首先就不是完全可靠的,而用這樣的數(shù)據(jù)學習出來的模型肯定是有問題的。 (1.2):另一方面,視頻數(shù)據(jù)通常有兩種:固定攝像頭拍攝(監(jiān)控視頻異常行為檢測),非固定攝像頭拍攝(電視節(jié)目精彩片段提取)。現(xiàn)在數(shù)據(jù)集沒有針對這兩者做區(qū)分可能也是存在問題的。 比如固定攝像頭情況下,檢測邊界的難點可能來自動作本身的模糊性;而非固定攝像頭拍攝情況下,數(shù)據(jù)存在噪聲,比如被標記為跳水的視頻段,可能是由【跳水+觀眾席+跳水】組成的,由于攝像頭本身的移動,沒有一個對準主體對象,中間的背景信息沒有被處理,也被標記了,這樣學習出來的特征可能也存在問題。 (2)模型本身 如何提取有效的temporal特征是模型需要考慮的最大問題,這個也是目前主流論文著手解決的問題。 通常方法有三種,C3D衍生的3D模型、Two-Stream模型、RNN模型。但這三種方法都沒有取得像2D卷積在圖像上取得的進展。同時temporal特征的可解釋性低,有時候網(wǎng)絡效果很好,但很難說明網(wǎng)絡到底學到了什么。 參考文獻[1] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 2017.Cascaded Boundary Regression for Temporal Action Detection. arXiv:1705.01180 (2017). [2] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia. 2017.TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals. In International Conference on Computer Vision (ICCV). 3648–3656. [3] Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and Dahua Lin. 2017. Temporal Action Detection With Structured Segment Networks. In International Conference on Computer Vision (ICCV). |
|