Core Concepts
本研究は、低レイテンシー、高品質、多様なプロンプトに対応する次世代の対話型画像セグメンテーションアプローチを提案する。従来のモデルとは異なり、視覚プロンプトを密に表現し融合することで、高品質なセグメンテーションを実現する。
Abstract
本研究は、対話型画像セグメンテーションの課題に取り組む。従来のアプローチは、低レイテンシーと高品質、または多様なプロンプトのいずれかを実現できるにとどまっていた。
本研究では、以下の取り組みを行う:
視覚プロンプトを密に表現する3チャンネルの密なマップを提案する。これにより、クリック、ボックス、ポリゴン、スクリブル、マスクなどの多様なプロンプトを効果的に表現できる。
画像エンコーディングと視覚プロンプトの融合を密に行うことで、高品質なセグメンテーションを実現する。
画像エンコーディングを1回行うことで、低レイテンシーを実現する。
評価実験の結果、提案手法は既存手法と比べて、低レイテンシー、高品質、多様なプロンプトに対応できることが示された。特に、HQSeg-44Kデータセットでは最高性能を達成した。また、医療画像データセットでも良好な一般化性を示した。
Stats
画像サイズは1024×1024ピクセルである。
提案手法は、COCO+LVISデータセットを用いて学習し、HQSeg-44Kデータセットで評価を行った。