核心概念
Appearance information enhances object association in video instance segmentation.
摘要
最近のオンラインビデオインスタンスセグメンテーション(VIS)手法は、強力なクエリベースの検出器を使用して、高い精度を達成しています。しかし、これらの手法は位置情報に大きく依存しており、オブジェクト間の誤った関連付けを引き起こす可能性があります。本論文では、外観情報がオブジェクトマッチングの重要な指標であることを示し、外観ガイド付き拡張によってインスタンス関連付けの精度を大幅に向上させる方法を提案します。また、既存のベンチマークが外観認識を十分に評価できないと認識し、独自の合成データセットを構築して方法を厳密に検証します。このアプローチにより、位置情報への過度な依存から解放され、YouTube-VIS 2019/2021およびOccluded VIS(OVIS)で最先端の結果を達成します。
統計資料
オブジェクト数:2,238個
ビデオ数:302本(バリデーション)
データセットサイズ:296k枚のマスク
平均ビデオ長:約12秒
引述
"Utilizing the output queries of the detector at the frame-level, these methods achieve high accuracy on challenging benchmarks."
"Our method introduces a new paradigm in query-based VIS by emphasizing the crucial role of appearance information for object association."
"We introduce VISAGE (Video Instance Segmentation with Appearance-Guided Enhancement), a method that leverages appearance cues as a crucial indicator for distinguishing instances."