מושגי ליבה
Mixed-Query Transformerは、様々な画像セグメンテーションタスクと多様なデータセットに対応可能な統一的なアーキテクチャである。混合クエリ戦略を提案することで、物体とスタッフの区別なく効果的にセグメンテーションを行うことができる。さらに、合成データを活用することで、モデルの一般化性能を大幅に向上させている。
תקציר
本論文では、Mixed-Query Transformer (MQ-Former)と呼ばれる新しい統一的な画像セグメンテーションアーキテクチャを提案している。
まず、従来のクエリ戦略には以下の課題があることを指摘している:
- 学習可能クエリは物体セグメンテーションの性能が低い
- 条件付きクエリは背景領域のセグメンテーションが苦手
- 分離クエリは物体とスタッフの区別が必要で、柔軟性に欠ける
そこで本手法では、学習可能クエリと条件付きクエリを組み合わせた「混合クエリ」を提案している。この混合クエリは物体とスタッフの区別なく動的に最適なクエリを選択できるため、様々なタスクやデータセットに柔軟に対応できる。
さらに、合成データを活用することで、モデルの一般化性能を大幅に向上させている。具体的には、物体検出データセットから合成セグメンテーションマスクを生成したり、物体キャプション生成モデルを使って合成キャプションを生成したりしている。
実験の結果、MQ-Formerは様々な画像セグメンテーションタスクとデータセットで優れた性能を発揮し、特に、オープンボキャブラリーのセグメンテーションベンチマークでは従来手法を大きく上回る成果を示している。
סטטיסטיקה
物体検出データセットは通常、セグメンテーションデータセットの10倍以上の規模がある。
COCO データセットは120K枚の画像しかないが、Objects365 データセットは1.7M枚の画像がある。
ציטוטים
"Existing unified image segmentation models either employ a unified architecture across multiple tasks but use separate weights tailored to each dataset, or apply a single set of weights to multiple datasets but are limited to a single task."
"To enable this, we propose a mixed query strategy, which can effectively and dynamically accommodate different types of objects without heuristic designs."
"Given the low cost of generating synthetic data, we can readily accumulate a large-scale segmentation training set to enhance our MQ-Former."