本稿では、従来のメモリ負荷の高いソフトマックスマッチングの代わりにゲーテッド線形マッチングを用いることで、長編・高解像度ビデオでも効率的なビデオオブジェクトセグメンテーションを実現する軽量メモリネットワーク「LiVOS」を提案する。
従来のワーキングメモリベースのビデオオブジェクトセグメンテーション(VOS)モデルは、カメラカットやフレームの挿入など、現実世界のビデオデータに頻繁にみられる不連続性に対して脆弱である。本稿では、フレーム間の画像埋め込みの類似性を評価することで、このような不連続性を検出し、ワーキングメモリの更新を調整する単純なアルゴリズムを提案する。これにより、無関係なフレームがメモリに書き込まれることを防ぎ、オブジェクトの再識別能力を大幅に向上させることができる。
メモリマッチングとデコーディングの共同改善により、ビデオオブジェクトセグメンテーションの精度を大幅に向上させることができる。
一般的なデータセットで事前に訓練された深層ネットワークを、少数のサンプルで新しいタスクに適応させるためのプロンプティングモジュールを設計する。