Core Concepts
拡散モデルから得られる注意マップを弱教師として利用し、信頼性を考慮した強ロバスト学習により、リアルな画像を使わずに高精度な意味的セグメンテーションを実現する。
Abstract
本研究は、拡散モデルから得られる注意マップを弱教師として利用し、意味的セグメンテーションを行う手法Attn2maskを提案している。
まず、Stable Diffusionを用いて画像と擬似ラベルを生成する。擬似ラベルは注意マップから得られるが、必ずしも正確ではない。そこで、信頼性を考慮したロバストな共同学習手法を導入し、擬似ラベルの不正確さを補正する。
さらに、プロンプトの多様化を図るプロンプト拡張手法を提案し、合成データの規模と多様性を向上させる。
また、LoRAを用いた拡散モデルの適応手法を提案し、遠隔ドメインへの適用を可能にする。
実験では、PASCAL VOCデータセットにおいて、リアルな画像やアノテーションを一切使わずに62.2%のmIoUを達成し、既存手法を上回る性能を示した。ImageNet-Sでも大規模な意味的セグメンテーションを実現し、Cityscapesでも遠隔ドメインへの適用が可能であることを示した。
Stats
合成画像の生成には約8秒かかる
合成画像のFIDは28.2、KIDは0.021
合成マスクのFIDは77.0、KIDは0.060