ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の対象オブジェクトをフレームごとに正確にセグメント化するコンピュータビジョンの重要なタスクである。近年のVOSモデル、特にワーキングメモリベースのモデルは、クリーンなビデオデータセットにおいて目覚ましい成果を収めている。しかし、これらのモデルは、現実世界のビデオデータに頻繁にみられるカメラカットやシーンチェンジなどの不連続性に対して脆弱である。このような不連続性は、モデルのワーキングメモリに無関係なフレームが書き込まれる原因となり、セグメンテーションの精度が大幅に低下する。本稿では、この問題に対処するために、ワーキングメモリベースのVOSモデルに適用可能なシンプルでありながら効果的なアルゴリズムを提案する。
本稿では、フレーム間の画像埋め込みの類似性に基づいて、カメラカットなどの不連続性を検出する手法を提案する。具体的には、各フレームをモデルのエンコーダを用いて画像埋め込みに変換し、連続するフレーム間の埋め込みのL2距離を計算する。この距離が事前に定義された閾値を超えた場合、カメラカットが発生したと判断し、ワーキングメモリの更新を停止する。これにより、無関係なフレームがメモリに書き込まれることを防ぎ、オブジェクトの再識別能力を維持することができる。
提案手法の有効性を検証するために、既存のVOSデータセット(DAVIS)に人工的にカメラカットを挿入したデータセットを作成し、3つの代表的なワーキングメモリベースのVOSモデル(XMem、Cutie、SAM 2)を用いて実験を行った。実験の結果、提案手法を適用することで、全てのモデルにおいて、カメラカットを含むビデオデータに対するセグメンテーション精度が大幅に向上することが確認された。特に、カットの長さが長い場合において、その効果は顕著であった。
本稿では、ワーキングメモリベースのVOSモデルにおけるカメラカット問題に対処するために、フレーム間の画像埋め込みの類似性に基づいてメモリの更新を調整するアルゴリズムを提案した。実験の結果、提案手法は、様々なモデルにおいて、カメラカットを含むビデオデータに対するセグメンテーション精度を大幅に向上させることが示された。これは、現実世界のビデオデータにおけるVOSの頑健性と信頼性を向上させるための重要なステップである。今後の研究では、より複雑なシーンチェンジやオブジェクトのオクルージョンにも対応可能な、より高度なワーキングメモリ管理手法の開発が期待される。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Clayton Brom... kl. arxiv.org 10-31-2024
https://arxiv.org/pdf/2410.22451.pdfDybere Forespørgsler