核心概念
ディフュージョンモデルの高速かつ高品質な画像生成を実現するため、人間の好みに基づいてノイズ分布を最適化する。
要約
本研究では、ディフュージョンモデルを用いた高速かつ高品質な画像生成手法を提案する。
ディフュージョンモデルは多ステップのサンプリングが必要であり、計算コストが高いという課題がある。
先行研究では、ディストリビューション整合性モデルやアドバーサリアル学習を用いて、少ステップでの高品質な画像生成を実現している。
しかし、少ステップの画像生成では品質が低下する問題がある。
本研究では、ノイズ分布の最適化に着目し、人間の好みに基づいて最適なノイズ分布を見つける手法を提案する。
具体的には、ノイズ分布のパラメータを直接最適化することで、人間の好みに合った高品質な1ステップ画像生成を実現する。
さらに、テキストプロンプトに応じて最適なノイズ分布を予測するモデルを導入し、プロンプト適応型の手法(PAHI)を提案する。
実験の結果、PAHIは標準的なガウス分布を用いる手法と比べて、人間の好みに大幅に合致した高品質な画像を生成できることを示した。
また、PAHIは1ステップの画像生成でも高品質な結果が得られ、計算コストの増加も小さいことが確認された。
統計
1ステップの画像生成では、標準的なガウス分布を用いる手法と比べて、PAHIの方が94.0%の勝率を示した。
ImageRewardスコアでも、PAHIは75.5%の勝率を示し、人間の好みに合致した画像を生成できることが確認された。
1ステップの画像生成では、PAHIの処理時間は0.067秒であり、1ステップの標準的な手法(0.062秒)と同程度の高速性を維持できている。
引用
"ディフュージョンモデルの高速かつ高品質な画像生成を実現するため、人間の好みに基づいてノイズ分布を最適化する。"
"PAHIは1ステップの画像生成でも高品質な結果が得られ、計算コストの増加も小さいことが確認された。"