核心概念
セマンティックセグメンテーションタスクのためのデータ拡張において、クラスプロンプトの追加と視覚的事前情報の組み合わせを提案することで、生成された画像がオリジナルの画像の内容と構造を正確に反映するようにする。
要約
本論文では、セマンティックセグメンテーションタスクのためのデータ拡張手法を提案している。従来の単純な変換によるデータ拡張では、セマンティックな多様性が不足していたため、生成モデルを活用することで、より高度な拡張を行うことができる。
提案手法の特徴は以下の通り:
- クラスプロンプトの追加: 生成されたキャプションにクラスラベルを追加することで、生成画像にオリジナルの画像と同様のクラスが含まれるようにする。
- 視覚的事前情報の組み合わせ: 元の画像の視覚的特徴と、セグメンテーションマップの視覚的特徴を組み合わせることで、生成画像のクラスが明確に表現されるようにする。
- クラスバランシングアルゴリズム: 生成データとオリジナルデータを組み合わせる際に、クラスの偏りを抑えるアルゴリズムを使用する。
これらの手法を組み合わせることで、PASCAL VOCデータセットにおいて、セマンティックセグメンテーションモデルの精度が大幅に向上することが示された。
統計
元のデータセットを使った場合のDeepLabV3+のmIoU: 46.54%
提案手法を使って拡張したデータセットを使った場合のDeepLabV3+のmIoU: 49.72%
引用
"クラスプロンプトの追加と視覚的事前情報の組み合わせを提案することで、生成された画像がオリジナルの画像の内容と構造を正確に反映するようにする。"
"クラスバランシングアルゴリズムを使用することで、生成データとオリジナルデータを組み合わせる際のクラスの偏りを抑えることができる。"