核心概念
本稿では、監視ビデオにおける異常検出において、さまざまな時間スケールで動作の詳細とコンテキスト情報を効果的に融合させる、マルチタイムスケール特徴学習(MTFL)と呼ばれる新しい手法を提案しています。
摘要
監視ビデオにおける弱教師あり異常検出のためのマルチタイムスケール特徴学習(MTFL)
書誌情報
Zhang, Y., Akdag, E., Bondarev, E., & de With, P. H. N. (2024). MTFL: Multi-Timescale Feature Learning for Weakly-Supervised Anomaly Detection in Surveillance Videos.
研究目的
本研究は、監視ビデオにおける異常検出において、異常の期間が異なるという課題に対処するため、複数の時間スケールから特徴を学習する新しい手法を提案することを目的としています。
方法論
マルチタイムスケール特徴学習(MTFL)と呼ばれる新しい手法を提案。
MTFLは、異なるフレーム長の時間チューブレット(短、中、長)から特徴を抽出し、Video Swin Transformerを用いて、これらの特徴を融合させる。
複数の時間スケールからの特徴を相関させ、グローバルおよびローカルの時間的依存性を捉えることで、異常と正常なスニペットを区別する表現能力を向上させる。
UCF-Crimeデータセットを拡張し、より広範囲の異常を含むVideo Anomaly Detection Dataset(VADD)を作成。
主な結果
MTFLは、UCF-Crimeデータセットにおいて、最先端の異常検出手法を凌駕するAUC 89.78%を達成。
XD-ViolenceデータセットではAP 84.57%、ShanghaiTechデータセットではAUC 95.32%と、最先端の手法に匹敵する結果を示した。
提案手法は、明瞭なモーションパターンを持たない異常の検出においても高い性能を示した。
結論
MTFLは、複数の時間スケールを活用することで、ビデオにおける行動異常の理解を深め、異常検出のための動作の詳細とイベント特徴情報の強力な融合を可能にする。
VADDは、より広範囲の異常イベントをカバーする、異常検出のための貴重なリソースとなる。
意義
本研究は、監視ビデオにおける異常検出の精度向上に貢献し、公共の安全確保やセキュリティシステムの強化に役立つ可能性がある。
制限と今後の研究
今後の研究では、より複雑なシナリオや異常タイプを含む、より大規模で多様なデータセットを用いてMTFLを評価する必要がある。
異なる時間スケールからの特徴の最適な組み合わせや融合方法をさらに検討する必要がある。
統計資料
MTFLは、UCF-Crimeデータセットにおいて、最先端の異常検出手法を凌駕するAUC 89.78%を達成しました。
XD-ViolenceデータセットではAP 84.57%、ShanghaiTechデータセットではAUC 95.32%と、最先端の手法に匹敵する結果を示しました。
VADDは、2,591本のビデオを含み、フレームレートは30fps、解像度は320×240ピクセルです。
VADDは、トレーニング用ビデオが2,202本、テスト用ビデオが389本です。
VADDは、1つの正常なクラスと17の異常なクラスを含む、現実世界の異常を最も網羅的にカバーしています。