Kernekoncepter
弱教師付きビデオ異常検知のための新しい擬似ラベル生成と自己学習フレームワークを提案する。CLIP言語-視覚モデルを利用して、ビデオイベントの説明文とビデオフレームの整合性を高め、正常性ガイダンスに基づいて信頼性の高い擬似ラベルを生成する。さらに、時間的依存関係を柔軟かつ正確にモデル化するための時間コンテキスト自己適応学習モジュールを導入する。
Resumé
本研究は、弱教師付きビデオ異常検知(WSVAD)の課題に取り組んでいる。WSVAD では、訓練時にビデオレベルのラベルしか利用できず、フレームレベルの異常位置は不明である。
提案手法の主な特徴は以下の通り:
- CLIP言語-視覚モデルを利用して、ビデオイベントの説明文とビデオフレームの整合性を高める。これにより、より正確な擬似ラベルを生成できる。
- 正常性ガイダンスを導入し、異常ビデオ内の正常フレームの干渉を低減することで、より信頼性の高い擬似ラベルを生成する。
- 時間的依存関係を柔軟かつ正確にモデル化するための時間コンテキスト自己適応学習モジュールを導入する。
- 上記の技術を組み合わせた擬似ラベル生成と自己学習フレームワークを提案する。
実験の結果、提案手法は2つのベンチマークデータセット(UCF-Crime、XD-Violence)において、現状最高の性能を達成した。これは、提案手法の有効性を示している。
Statistik
異常ビデオと正常ビデオの合計時間は345時間に及ぶ大規模なデータセットである。
UCF-Crimeデータセットには1900本のビデオが含まれ、13種類の異常イベントカテゴリがある。
XD-Violenceデータセットには4754本のビデオが含まれ、6種類の異常イベントカテゴリがある。
Citater
"異常検知は、コンピュータビジョン、自然言語処理、知的最適化など、様々な分野で広く研究されている重要な研究課題の1つである。"
"現在のWSVAD手法は、主に1段階のマルチインスタンス学習(MIL)ベースの手法と2段階の擬似ラベル自己学習ベースの手法に分類される。"
"既存の手法は、視覚モーダリティのみを使用しており、カテゴリテキスト情報の活用が軽視されているため、より正確な擬似ラベルの生成と自己学習の性能に影響を及ぼしている。"