本研究は、動画異常検知のための新しい自己教師あり学習手法を提案している。
まず、物体検出手法を用いて動画から時空間キューブ(STC)を抽出する。次に、STCをパッチに分割し、ランダムな位置エンコーディングを付与する。提案手法は2つのストリームからなるビジョントランスフォーマーネットワークで構成され、一方のストリームは空間パッチの順序予測と外観特徴の学習を、もう一方のストリームは時間パッチの順序予測と運動特徴の学習を担当する。さらに、パッチ間の距離制約モジュールを導入し、より深い時空間的特徴の学習を促す。
学習時には、パッチの順序予測と距離予測の2つの自己教師あり学習タスクを同時に最適化する。推論時には、予測誤差を異常スコアとして用いる。
提案手法は3つの公開データセットで評価され、既存手法を上回る性能を示した。特に、CUHK Avenueデータセットでは最高精度を達成した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究