Centrala begrepp
JOSENetは、監視ビデオの暴力検出のための新しい自己教師あり学習フレームワークであり、優れたパフォーマンスを提供する。
Sammanfattning
本研究では、JOSENetと呼ばれる新しい自己教師あり学習フレームワークを提案している。JOSENetは、RGBフレームと光学フローの2つの時空間ビデオストリームを受け取り、新しい正則化された自己教師あり学習アプローチを活用する。
JOSENetは以下の特徴を持つ:
- 従来の自己教師あり学習手法と比べて優れたパフォーマンスを発揮する
- ビデオセグメントあたりのフレーム数を4分の1に削減し、フレームレートも低減することで、計算コストを大幅に削減できる
- 自己教師あり学習を用いることで、ラベル付きデータが不足している実世界の監視ビデオにも適用可能
具体的には、JOSENetは2つのモデルから構成される:
- 主要なターゲットモデル: 効率的な2ストリームフロー制御ネットワーク(FGN)
- 補助的な自己教師あり学習モデル: ビデオストリームに特化したVICRegアプローチ
FGNは光学フローとRGBの2つのストリームを受け取り、暴力行為の検出を行う。一方、VICRegベースの自己教師あり学習モデルは、ラベル付きデータが不足している状況でも有効な表現を学習する。
実験の結果、JOSENetは従来手法と比べて優れたパフォーマンスを示し、同時に大幅な計算コストの削減も実現できることが確認された。さらに、一般的な行動認識タスクにも適用可能であることが示された。
Statistik
監視カメラで撮影された2,000本の5秒間のビデオで構成されるRWF-2000データセットを使用
1秒あたり7.5フレームのサンプリングレートで処理
1ビデオセグメントあたり16フレームを入力として使用
Citat
"暴力検出タスクは、研究コミュニティにとって大きな注目を集めている。"
"JOSENetは、優れたパフォーマンスを発揮しつつ、メモリ使用量と計算コストを大幅に削減することができる。"
"自己教師あり学習手法を用いることで、ラベル付きデータが不足している実世界の監視ビデオにも適用可能となる。"