核心概念
事前学習済み潜在拡散モデル (LDM) を高解像度画像生成に適応させる、訓練不要な新しいフレームワーク、AP-LDM (Attentive and Progressive LDM) を提案する。
要約
AP-LDM: 訓練不要な高解像度画像生成のための注意機構と段階的潜在拡散モデル
本論文は、事前学習済み潜在拡散モデル (LDM) を高解像度画像生成に適応させる、訓練不要な新しいフレームワーク、AP-LDM (Attentive and Progressive LDM) を提案する。既存のLDMは、訓練時の解像度を超える高解像度画像を直接生成しようとすると、構造的な歪みが発生しやすいという課題があった。AP-LDMは、LDMのノイズ除去プロセスを2つの段階に分割することで、高品質な高解像度画像を高速に生成することを目指す。
第一段階:注意機構を用いた訓練解像度ノイズ除去
新しいパラメータフリーの自己注意機構を用いた注意誘導を提案し、構造的一貫性を向上させることで、訓練解像度において高品質な画像の潜在表現を生成する。
第二段階:段階的高解像度ノイズ除去
潜在空間ではなくピクセル空間で段階的にアップサンプリングを行うことで、潜在空間のアップサンプリングに起因するアーティファクトを軽減する。
第一段階の効果的な初期化を活用することで、高解像度でのノイズ除去を大幅に少ないステップ数で実行できるため、全体的な効率が向上する。
広範囲にわたる実験結果から、AP-LDMは既存手法を大幅に上回る性能を示し、最大5倍の高速化を実現したことが示された。
これにより、AP-LDMが実用的なアプリケーションにとって大きな利点を持つことが強調された。