本論文は、動画セマンティックセグメンテーションのための局所的および全体的な時間的コンテキストの学習手法を提案する。提案手法は、隣接フレームの静的コンテキストと動的コンテキストを統一的に表現するCoarse-to-Fine Feature Mining (CFFM)技術と、全体的な時間的コンテキストを明示的に学習するCFFM++を含む。実験結果は、提案手法が既存手法を上回る性能を達成することを示している。
提案手法ActNetFormerは、クロスアーキテクチャの擬似ラベリングと対比学習を組み合わせることで、動画アクション認識の半教師あり学習に対する堅牢なソリューションを提供する。
動画基盤モデルを活用し、空間的および時間的特徴を効果的に統合することで、動的注意喚起の予測精度を向上させる。
動画フレームとアクションクラスの間の(ノイズの多い)類似度行列を入力として、時間的に整合性のある分割を出力するための最適輸送問題を解く。
CLIP自体が優れた空間-時間モデリング能力を持っているため、効率的な転移学習フレームワークを提案する。提案手法は、CLIPエンコーダの最後の数層に軽量なサイドブロックを再帰的に接続し、空間的特徴の適応的プーリングと時間相関の段階的な洗練を行う。