本論文では、連続条件付き生成モデリング(CCGM)タスクのための新しい手法である連続条件付き拡散モデル(CCDM)を提案する。CCDMは、条件付き拡散プロセス、カスタマイズされたU-Netアーキテクチャ、新しい hard vicinal 損失関数、効率的な条件付きサンプリング手順を導入することで、既存の条件付き拡散モデルの限界を克服する。実験結果は、CCDMが様々なデータセットにおいて最先端のCCGMモデルを上回る性能を示すことを明らかにしている。
Abstract
本論文では、連続条件付き生成モデリング(CCGM)タスクのための新しい手法である連続条件付き拡散モデル(CCDM)を提案している。
条件付き拡散プロセス:
前方拡散プロセス: 実画像xを徐々にガウシアンノイズに変換する。回帰ラベルyは明示的に考慮されない。
逆拡散プロセス: ガウシアンノイズから実画像xを再構築する際に、回帰ラベルyを利用する。
条件付きU-Netアーキテクチャ:
回帰ラベルyを考慮するために、U-Netにカスタマイズされた条件付け機構を導入する。
ラベル埋め込みネットワークϕ(y)を使用して、スカラー回帰ラベルyをベクトル表現に変換する。
新しい hard vicinal 損失関数:
訓練時に、ラベルの近傍にある画像を利用することで、データ不足の問題に対処する。
従来のノイズ予測誤差ベースの損失関数よりも、画像の除雑音誤差ベースの損失関数の方が優れていることを示す。
効率的な条件付きサンプリング:
クラス条件付きガイダンス手法を応用し、条件付き出力と非条件付き出力の線形結合を用いてサンプリングを行う。
DDIM サンプラーを使用することで、高速かつ効果的なサンプリングを実現する。
実験結果から、CCDMが様々なデータセットにおいて最先端のCCGMモデルを上回る性能を示すことが明らかになった。特に、画質、ラベル一貫性、全体的な性能指標(SFID)において優れた結果を得ている。
CCDM: Continuous Conditional Diffusion Models for Image Generation