本論文では、事前学習済みのディフュージョンモデルを活用し、追加のトレーニングなしで高解像度の画像を生成する手法「アップサンプルガイダンス」を提案している。
まず、ディフュージョンモデルの逆プロセスにおける信号対雑音比(SNR)の整合性に着目し、低解像度モデルから高解像度画像を生成するための調整を行う。具体的には、低解像度モデルの予測ノイズに対して時間と分散の調整を加え、高解像度モデルの予測ノイスとの差分をガイダンス項として活用する。
この手法は、ピクセル空間、潜在空間、動画生成モデルなど、様々なタイプのディフュージョンモデルに適用可能である。また、既存の手法との組み合わせも可能で、高解像度化に加えて、画質の向上やプロンプトとの整合性の改善も期待できる。
実験では、CIFAR-10やCelebA-HQなどの既存モデルに適用し、高解像度化に成功した。特に、CIFAR-10の64x64解像度の生成は、従来のモデルでは不可能だったが、本手法により実現できた。さらに、動画生成モデルにも適用し、時間方向の高解像度化にも成功している。
ガイダンススケールの調整に関する分析も行い、画質とプロンプトとの整合性のトレードオフを示した。全体として、本手法は追加のトレーニングなしで高解像度化を実現する汎用的な手法であり、ディフュージョンモデルの応用範囲を大きく広げる可能性を持っている。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問