本研究では、外観情報と運動情報の相互関係を密に統合するためのインターモーダリティアテンション(IMA)と、ビデオの全体的な文脈を効率的に活用するためのインターフレームアテンション(IFA)という2つの新しいアテンションメカニズムを提案している。これらの手法を組み合わせることで、従来手法を大幅に上回る性能を達成している。
提案手法は、ターゲットフレームの粗い文脈情報を用いてガイド付きスロットを生成し、ローカルおよびグローバル特徴を効果的に統合することで、複雑な背景や複数の類似オブジェクトを持つシーンでも優れた前景-背景分離性能を実現する。