Core Concepts
潜在的拡散モデルを利用して画像調和を行い、さらに高解像度化と追加の洗練段階を導入することで、従来手法を大幅に上回る性能を実現する。
Abstract
本論文では、画像調和タスクに潜在的拡散モデルを適用する手法「DiffHarmony」を提案している。
まず、事前学習済みの潜在的拡散モデル(Stable Diffusion)を画像調和タスクに適応させる。これにより、調和的だが潜在的にぼやけた初期画像を生成することができる。
次に、2つの戦略を導入して初期画像の鮮明さを高める。1つ目は、推論時に入力画像の解像度を高くすることで、高解像度の画像を生成する。2つ目は、簡単なU-Netベースのモデルを用いた追加の洗練段階を導入し、画像の歪みを軽減する。
広範な実験により、提案手法がiHarmony4データセットの各サブデータセットで最先端の性能を達成することを示している。特に、前景領域が大きい場合に優位性が高いことが分かった。これは、提案手法の優れた調和性能が再構成の損失を補償しているためと考えられる。
Stats
画像調和タスクでは、ピクセルレベルの評価指標(PSNR、MSE、fMSE)が重要である。提案手法は、これらの指標で従来手法を大幅に上回る性能を示している。