最近のオンラインビデオインスタンスセグメンテーション(VIS)手法は、強力なクエリベースの検出器を使用して、高い精度を達成しています。しかし、これらの手法は位置情報に大きく依存しており、オブジェクト間の誤った関連付けを引き起こす可能性があります。本論文では、外観情報がオブジェクトマッチングの重要な指標であることを示し、外観ガイド付き拡張によってインスタンス関連付けの精度を大幅に向上させる方法を提案します。また、既存のベンチマークが外観認識を十分に評価できないと認識し、独自の合成データセットを構築して方法を厳密に検証します。このアプローチにより、位置情報への過度な依存から解放され、YouTube-VIS 2019/2021およびOccluded VIS(OVIS)で最先端の結果を達成します。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Hanjung Kim,... في arxiv.org 03-11-2024
https://arxiv.org/pdf/2312.04885.pdfاستفسارات أعمق