本論文は、参照動画物体分割(R-VOS)の課題に取り組む。R-VOSは、言語表現に基づいて動画内の対象物体を分割することを目的とする。従来のR-VOS手法は、時系列の変化や他の類似物体の存在により、一貫した物体分割に課題があった。
提案手法HTRは、時系列の一貫性をモデル化するためのエンドツーエンドのパラダイムを提示する。具体的には、以下の2つの主要な特徴を有する:
選択的な参照分割: 高品質の参照マスクを自動生成し、それらを用いて残りのフレームを分割する。これにより、時系列の一貫性が向上する。
ハイブリッドメモリ: 局所的な文脈と大域的な表現を組み合わせたメモリを導入し、ロバストな時空間伝播を実現する。これにより、自動生成された不完全な参照マスクの影響を軽減できる。
実験の結果、HTRは主要なベンチマークデータセットにおいて最高レベルの性能を達成し、特に時系列の一貫性の向上が顕著であることが示された。さらに、新しい評価指標Mask Consistency Score (MCS)を提案し、HTRの時系列一貫性を定量的に評価した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bo Miao,Moha... a las arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19407.pdfConsultas más profundas