Kernekoncepter
UniFL は、知覚フィードバック学習、分離フィードバック学習、敵対的フィードバック学習の3つの主要コンポーネントを統合し、テキスト-画像生成モデルの画質向上、審美性向上、推論速度の高速化を包括的に実現する。
Resumé
本論文では、UniFL – ユニファイドフィードバック学習フレームワークを提案している。UniFL は、テキスト-画像生成モデルの性能を包括的に向上させることを目的としている。
具体的には以下の3つの主要コンポーネントから成る:
- 知覚フィードバック学習(PeFL)
- 既存の知覚モデルを活用し、画像の様式や構造に関する詳細なフィードバックを生成モデルに提供することで、視覚品質を向上させる。
- 分離フィードバック学習
- 審美性の概念を色、レイアウト、照明、細部の4つの側面に分離し、それぞれに対応した報酬モデルを学習することで、より効果的な審美性最適化を実現する。
- アクティブプロンプト選択手法を導入し、過剰最適化を抑制する。
- 敵対的フィードバック学習
- 生成モデルと報酬モデルを敵対的に学習させることで、少ない推論ステップでも高品質な画像生成を可能にし、推論速度を大幅に向上させる。
UniFL は、SD1.5やSDXLなどの既存のテキスト-画像生成モデルに適用可能であり、画質、審美性、推論速度の全てにおいて顕著な性能向上を示している。さらに、LoRA、ControlNet、AnimateDiffなどの下流タスクでも高い汎化性を発揮する。
Statistik
生成画像のFID値は、SD1.5で37.99から31.14に、SDXLで27.92から25.54に改善された。
CLIP scoreは、SD1.5で0.308から0.318に、SDXLで0.321から0.328に向上した。
審美性スコアは、SD1.5で5.26から5.54に、SDXLで5.65から5.98に上昇した。
4ステップ推論時の性能は、SD1.5で42.91から33.54に、SDXLで125.89から26.25に大幅に改善された。
Citater
"UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL."
"UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference."
"Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff."