セグメント・エニシング・モデル(SAM)は、テキスト指示に基づくセグメンテーションタスクでは大幅に劣る。深層テキスト命令チューニングが、SAMの軽量マスクデコーダの浅い融合スキームによる弱点を緩和するための鍵となる。