本研究では、ActNetFormerと呼ばれる新しい手法を提案する。ActNetFormerは、教師あり学習と教師なし学習の両方のデータを活用し、擬似ラベリングと対比学習の手法を組み合わせることで、動画アクション表現を効果的に学習する。
具体的には以下の特徴を持つ:
3D CNNとビデオトランスフォーマーの2つのアーキテクチャを統合し、空間的特徴と時間的依存性を包括的に捉える。3D CNNは空間的特徴と短期的な時間依存性を得意とし、ビデオトランスフォーマーは長期的な時間依存性を捉えることができる。
クロスアーキテクチャの擬似ラベリングを採用し、2つのモデルが互いに擬似ラベルを生成することで、補完的な表現を学習する。
クロスアーキテクチャの対比学習を導入し、3D CNNとビデオトランスフォーマーの表現の相互情報を発見することで、より包括的な動画理解を実現する。
実験結果から、提案手法ActNetFormerが既存手法を上回る性能を示すことが確認された。特に、ラベル付きデータが1%しかない過酷な条件下でも優れた性能を発揮することが分かった。これは、提案手法が教師あり学習と教師なし学習の両方を効果的に活用し、動画アクション認識の性能向上に寄与していることを示している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究