Mixed-Query Transformerは、様々な画像セグメンテーションタスクと多様なデータセットに対応可能な統一的なアーキテクチャである。混合クエリ戦略を提案することで、物体とスタッフの区別なく効果的にセグメンテーションを行うことができる。さらに、合成データを活用することで、モデルの一般化性能を大幅に向上させている。
セグメント・エニシング・モデル(SAM)は、テキスト指示に基づくセグメンテーションタスクでは大幅に劣る。深層テキスト命令チューニングが、SAMの軽量マスクデコーダの浅い融合スキームによる弱点を緩和するための鍵となる。
VRP-SAMは、参照画像の注釈を利用して、ターゲット画像内の同一セマンティクスのオブジェクトをセグメンテーションできる。