本論文は、動画セマンティックセグメンテーションのための時間的コンテキストの学習手法を提案している。
まず、局所的な時間的コンテキストに着目し、隣接フレームの静的コンテキストと動的コンテキストを統一的に表現するCoarse-to-Fine Feature Mining (CFFM)技術を提案する。CFFM は2つのサブ操作から成り、Coarse-to-Fine Feature Assembling (CFFA)では、フレーム間の距離に応じて異なる受容野とプーリング操作を適用することで、静的コンテキストと動的コンテキストを効率的に抽出する。Cross-frame Feature Mining (CFM)では、ターゲットフレームの特徴量を隣接フレームの特徴量を用いて更新することで、時間的コンテキストを学習する。
次に、全体的な時間的コンテキストの学習に着目し、CFFM++を提案する。CFFM++は、ビデオ全体から抽出したグローバルな時間的コンテキストプロトタイプを用いて、ターゲットフレームの特徴量を更新する。
実験結果は、提案手法CFFM、CFFM++が既存手法を上回る性能を達成することを示している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Guolei Sun,Y... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2204.03330.pdfDeeper Inquiries