核心概念
セグメント・エニシング・モデル(SAM)は、テキスト指示に基づくセグメンテーションタスクでは大幅に劣る。深層テキスト命令チューニングが、SAMの軽量マスクデコーダの浅い融合スキームによる弱点を緩和するための鍵となる。
要約
本論文では、SAMのテキスト指示に基づくセグメンテーション能力を向上させるために、2つの深層命令チューニング(DIT)手法を提案している。1つはエンドツーエンドのDIT(E-DIT)で、もう1つはレイヤー単位のDIT(L-DIT)である。これらのDIT手法により、SAMの画像エンコーダを独立した視覚言語学習器として扱うことができ、テキストと画像の完全な相互作用を実現することができる。
RefCOCO、RefCOCO+、RefCOCOgの3つの高競争力ベンチマークデータセットでの実験結果は、提案したDIT-SAMがSAMを大幅に上回り、既存の最先端手法とも競争力があることを示している。具体的には、E-DITはRefCOCO valで11.8%の大幅な改善を達成し、L-DITはさらにパフォーマンスを向上させ、RefCOCO testAで11.6%の改善を示した。
統計
SAMのデフォルトの融合スキームでは、RefCOCOのテキスト指示に基づくセグメンテーションの精度が55.7%しかない。
提案したE-DITは、RefCOCO valで81.78%のP@0.5を達成し、SAMを11.8%改善した。
提案したL-DITは、RefCOCO testAで88.06%のP@0.5を達成し、SAMを11.6%改善した。
引用
"Deep text instruction tuning is essential for SAM."
"Our simple deep tuning methods can improve the performance by a large margin without significantly changing the architecture of SAM."