Core Concepts
テキストガイド型ディフューション・モデルを用いて、顕著物体の境界を保持しつつ自然な背景を生成する手法を提案する。
Abstract
本論文では、顕著物体の境界を保持しつつ自然な背景を生成する手法を提案している。従来のインペイントモデルは、顕著物体の境界を無視して物体を拡張してしまう問題があった。
提案手法では、ControlNetアーキテクチャを用いてStable Inpainting 2.0モデルを拡張することで、この問題を解決している。具体的には、顕著物体のマスクを追加の入力条件として利用することで、物体の境界を保持しつつ背景を生成できるようにしている。
提案手法は、FID、LPIPS、CLIP Scoreなどの標準的な評価指標において従来手法を上回る性能を示し、特に物体拡張の度合いを大幅に抑えることができている。これは、顕著物体の同一性を保ちつつ自然な背景を生成できることを意味している。
提案手法の有効性は、ImageNet、ABO、COCO、DAVIS、Pascalなどの複数のデータセットで確認されている。また、訓練データの拡充や、テキストプロンプトの影響など、様々な要因についても分析が行われている。
Stats
顕著物体の面積は、生成画像の方が入力画像よりも平均3.6倍大きい
生成画像のFIDは平均10.56、LPIPSは0.34、CLIP Scoreは27.21
Quotes
"テキストガイド型ディフューション・モデルを用いた顕著物体対応型背景生成は、創造的デザインやeコマースなど、様々な分野で重要な役割を果たす"
"従来のインペイントモデルは、顕著物体の境界を無視して物体を拡張してしまう問題がある"
"提案手法では、ControlNetアーキテクチャを用いてStable Inpainting 2.0モデルを拡張することで、この問題を解決している"