本稿では、指示画像セグメンテーション (RIS) における、類似オブジェクトの存在や指示表現の複雑さによるパフォーマンスへの影響に着目し、適切な難易度を持つモザイク画像を生成するデータ拡張手法 NeMo を提案する。
単一エンコーダを用いることで、視覚-言語の密な相互作用を実現し、高性能かつ効率的な指示画像セグメンテーションを実現する。