Core Concepts
ボックス注釈のみを使用して、高品質のピクセルレベルのインスタンスマスクを生成し、それらを活用することで、ボックス監視ビデオインスタンスセグメンテーションの性能を大幅に向上させることができる。
Abstract
本論文は、ボックス監視ビデオインスタンスセグメンテーション(VIS)の性能を大幅に向上させる新しいアプローチを提案している。
まず、3つのモデル(HQ-SAM、IDOL-BoxInst、DeAOT)を使用して、ボックス注釈に基づいて高品質のピクセルレベルの擬似マスクを生成する。次に、これらの擬似マスクの品質を向上させるための3つの戦略(SCM、DOOB、SHQM)を提案する。
さらに、生成された高品質の擬似マスクを活用するために、ボックス監視VISアルゴリズムPM-VISを導入する。PM-VISは、ボックス注釈と擬似マスクの両方を活用することで、YTVIS2019、YTVIS2021、OVISデータセットで最先端のパフォーマンスを達成している。
最後に、高品質の擬似マスクを利用して、元のグラウンドトゥルースデータを改善する2つのフィルタリング手法(Missing-Data、RIA)を提案する。これにより、完全教師あり学習のVISモデルの性能も向上している。
全体として、本論文は、ボックス監視VISの性能を大幅に向上させる革新的なアプローチを提示している。
Stats
ボックス監視VISアルゴリズムPM-VISは、YTVIS2019で48.7%、YTVIS2021で44.6%、OVISで27.8%のマスクAPを達成している。
完全教師あり学習のPM-VISモデルは、YTVIS2019で50.0%のマスクAPを達成し、ベースラインアルゴリズム(IDOL)を上回っている。
Quotes
"ボックス注釈のみを使用して、高品質のピクセルレベルのインスタンスマスクを生成し、それらを活用することで、ボックス監視ビデオインスタンスセグメンテーションの性能を大幅に向上させることができる。"
"本論文は、ボックス監視VISの性能を大幅に向上させる革新的なアプローチを提示している。"