【原】ETP：精確時序動作定位

極市平臺 2021-01-26

展開全文

論文地址：https:///abs/1804.04803

背景介紹

時序動作檢測，指的是在一段untrimmed video中找到感興趣動作發(fā)生的起止時間，同時知道這個動作的具體類別。

目前主流的模型是three-stages，分別是時序動作提名，即先提出一些可能包含動作的時序段，以減少直接采用滑動窗方法帶來的計算量；然后在提出的這些proposal基礎上，進行微調(diào)，通常是采用regression的方式；最后，在得到所有可能包含的proposal后，對每一個proposal做分類，得到最終結果。

這個目前的準確率在IOU=0.5的情況下還處于比較低的水平，而主要原因是當前模型提出的proposal質(zhì)量不高，而在action recognition方面，UCF101數(shù)據(jù)集上已經(jīng)取得了98%的準確率。

主要貢獻

提出了three-phase的evolving temporal proposal模型（ETP），引入了non-local pyramid features，該方法實現(xiàn)了目前state-of-the-arts。

模型結構

EPT網(wǎng)絡由三個子網(wǎng)絡組成，Actionness Network：在frame level上得出每一個frame的包含動作的置信概率，即actionness score；Refinement Network：在前一步基礎上，通過regression來調(diào)整proposal，得到更精確的邊界；Localization Network：同樣是refine。具體看各個子網(wǎng)絡：

Actionness Network：

這個網(wǎng)絡和[3]中提出的TAG方法（如下圖）是一樣的。AN本身是一個分類網(wǎng)絡，目的是為了得到frame-level class-specific actionness，也就是當前幀包含動作的概率值。分類網(wǎng)絡對網(wǎng)絡結構沒有要求，本文采用的是預訓練的ResNet模型。

在得到了每一幀的score后，通過聚類的方法，將離散的score組合，得到proposal，然后用非極大值抑制（NMS）剔除多余proposal。聚類方法見下圖。

Refinement Network：

與Actionness Network在frame-level上考慮不同，Refinement Network從unit-level上考慮，這樣做的原因是，在refine環(huán)節(jié)，為了減少邊界本身模糊性的影響，[2]實驗發(fā)現(xiàn)在coarse-grained是做回歸比在frame-level上做回歸更有效和穩(wěn)定。同時考慮context信息，即proposal周邊的units，方式和[3]SSN一致。

與[2]中使用Two-Stream特征作為unit特征不同，Refinement Network使用non-local pyramid features作為unit特征。另外與[2]的差異在于，[2]在提取unit特征后，直接在unit-level上通過full connected layers做regression，而這里則是把unit特征輸入到RNN-based sequence encoder中，然后把經(jīng)過編碼后的context feature再去做regression，回歸的是proposal的中心坐標和proposal的長度（[2]中回歸的是offset）。這里RNN采用[4]中提出的BiGRU，GRU在這不做說明。

Refinement Network采用的loss函數(shù)為：

c代表proposal的中心坐標，s代表proposal的長度。N包含positive和incomplete的proposal。

Localization Network：

在Refinement Network得到新的proposal后，采用[3]中SSN作為backbone，如上圖[3]，在最后一層加入non-local block[5]，其中non-local block[5]以residual connection[6]形式存在。具體細節(jié)請參閱[3]，這里不再敘述。

實驗

實驗細節(jié)

（1）Actionness Network中采用在Image-Net上預訓練后并且在UCF101上fine-tune的RseNet-34作為base-bone。

（2）Refinement Network中使用2 BiGRU cells，每一個包含512個隱藏單元。

（3）Localization Network中使用在Kinetics上預訓練的Inception-V3作為base-bone。

對比實驗

可以看到，ETP方法在IOU大于0.3之后的準確率高于所有主流方法，而且提升了很多。

文中還做了幾個比較細致的對比實驗。

（1）Refinement Network的效果。

（2）Unit長度的影響。

（3）Non-local pyramid feature的影響。

（4）多模態(tài)的影響。

其中（2）已經(jīng)在TURN-TAP中被探索過了，unit長度大約在32左右會有最好效果。而（4）幾乎已經(jīng)是視頻領域共識了，任何主流模型，RGB+Flow都要好于單RGB，這里不再多說。

值得注意的是，在增加了Refinement Network的情況下，在各個類別上的效果并沒有明顯的提升，甚至在一些類別下降了。

Refinement Network中主要是增加了RNN模塊。所以原因可能是來自RNN本身（單純基于RNN的方法一直沒有取得明顯進展），也有可能是Refinement Network和Localization Network都在做refine，Localization Network起決定性的作用。

而Non-local feature則在各個類別上基本都實現(xiàn)了提升，原因可能來自unit與unit之間增加了更多響應，有利于網(wǎng)絡學習到它們之間的聯(lián)系。但這樣無疑也增加了很大計算量。

個人見解

論文亮點

個人認為亮點主要來自兩方面：

（1）引入了non-local feature，對比實驗也證明，non-local feature能夠帶來效果上的提升。

（2）一個模型內(nèi)同時融入了很多主流的tricks，并且實驗效果很驚人，在IOU=0.5的情況下，相比TURN-TAP提升近10%，超過TAG6%，比去年state-of-the-arts的CBR（TURN-TAP同一作者）仍高出近3%。

個人看法：

熟悉這個領域的同學知道，這篇文章集成了很多主流方法的核心。

例如Actionness Network其實就是SSN中提出的TAG方法；unit-level上做regression效果比frame-level上要好這一點也在TURN-TAP中首先得到了使用；pyramid特征來獲得context information也是早就被應用的trick；non-local feature應該也有人嘗試過。

所以整個模型其實可以看成是TAG+TURN-TAP+LSTM的組合拳，效果喜人。

存在的問題：

（1）數(shù)據(jù)本身：

（1.1）：一方面動作本身的邊界是模糊的，這就表明主流數(shù)據(jù)集上的label首先就不是完全可靠的，而用這樣的數(shù)據(jù)學習出來的模型肯定是有問題的。

（1.2）：另一方面，視頻數(shù)據(jù)通常有兩種：固定攝像頭拍攝（監(jiān)控視頻異常行為檢測），非固定攝像頭拍攝（電視節(jié)目精彩片段提取）。現(xiàn)在數(shù)據(jù)集沒有針對這兩者做區(qū)分可能也是存在問題的。

比如固定攝像頭情況下，檢測邊界的難點可能來自動作本身的模糊性；而非固定攝像頭拍攝情況下，數(shù)據(jù)存在噪聲，比如被標記為跳水的視頻段，可能是由【跳水+觀眾席+跳水】組成的，由于攝像頭本身的移動，沒有一個對準主體對象，中間的背景信息沒有被處理，也被標記了，這樣學習出來的特征可能也存在問題。

（2）模型本身

如何提取有效的temporal特征是模型需要考慮的最大問題，這個也是目前主流論文著手解決的問題。

通常方法有三種，C3D衍生的3D模型、Two-Stream模型、RNN模型。但這三種方法都沒有取得像2D卷積在圖像上取得的進展。同時temporal特征的可解釋性低，有時候網(wǎng)絡效果很好，但很難說明網(wǎng)絡到底學到了什么。

參考文獻

[1] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 2017.Cascaded Boundary Regression for Temporal Action Detection. arXiv:1705.01180 (2017).

[2] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia. 2017.TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals. In International Conference on Computer Vision (ICCV). 3648–3656.

[3] Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and Dahua Lin. 2017. Temporal Action Detection With Structured Segment Networks. In International Conference on Computer Vision (ICCV).
[4] Mike Schuster and Kuldip K Paliwal. 1997. Bidirectional recurrent neural net- works. IEEE Transactions on Signal Processing 45, 11 (1997), 2673–2681.
[5] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2017. Non-local Neural Networks. arXiv:1711.07971 (2017).
[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 770–778.