本文提出了一種端到端的深度學習網絡,用於自動檢測影片中的暴力行為。該網絡結合了二維卷積神經網絡(CNN)和雙向門控循環單元(BiGRU)。CNN用於從每一幀中提取空間特徵,而BiGRU則利用來自多幀的CNN特徵提取時間和局部運動特徵。
實驗在三個公開數據集上進行,包括Hockey數據集、Violent Flow數據集和Real Life Violence Situations數據集。結果顯示,所提出的網絡在這三個數據集上分別達到了98%、95.5%和90.25%的準確率,優於大多數現有方法。雖然在某些數據集上,使用計算密集型的3D CNN的方法略有優勢,但本文提出的2D CNN方法計算複雜度較低。
未來工作包括探索不同的採樣方法以進一步提高性能,以及融合影像和光流信息以提高準確率。由於該方法是模塊化的,還可以使用輕量級CNN如MobileNets來接近實時性能。
To Another Language
from source content
arxiv.org
Deeper Inquiries