本研究は、従来の動画ベースの自己教師あり動画オブジェクトセグメンテーション(VOS)手法とは異なり、静的画像のみを使用して効率的かつ効果的なVOSを実現する手法を提案する。
具体的には以下の3つの主要な点を示す:
静的画像から擬似的な動的信号を抽出し、静的および動的な視覚的対応を学習する手法を提案する。これにより、動画データを必要とせずにVOSを実現できる。
静的な視覚的対応と動的な視覚的対応を統合したハイブリッド視覚的対応学習フレームワークを提案する。これにより、静的画像からVOSに必要な特徴表現を学習できる。
提案手法は、従来の動画ベースの手法と比較して、より少ないデータ量と短い学習時間で優れたVOS性能を達成する。実験結果では、DAVIS17、YouTube-VOS18、DAVIS16、VOSTなどの各種ベンチマークで最先端の性能を示す。
さらに、提案手法は、動画ラベル伝播タスクである部位セグメンテーションと姿勢追跡でも優れた性能を発揮する。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Gensheng Pei... às arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13505.pdfPerguntas Mais Profundas