本論文は、文字-画像生成モデルの品質改善に関する一般的な手法「G-Refine」を提案している。G-Refineは、知覚品質指標(PQ-Map)と整合性品質指標(AQ-Map)の2つのモジュールから構成される。
PQ-Mapは、画像の知覚品質を正確に評価するために、CLIP画像エンコーダとテキストエンコーダを改良している。これにより、技術的品質、合理性、自然性といった3つの要素を考慮した詳細な知覚品質マップを生成できる。
AQ-Mapは、テキストプロンプトの構文解析に基づいて、各プロンプト句の整合性を評価し、整合性の低い部分を強調する整合性品質マップを生成する。
これらの品質マップを活用して、G-Refineは2段階の最適化プロセスを行う。第1段階では低品質領域を強力に改善し、第2段階では全体的に穏やかな改善を行う。
実験の結果、G-Refineは既存の最適化手法と比べて、10以上の品質指標において優れた性能を示した。特に、人間の嗜好性に関連する指標でも最高水準の成果を収めた。これにより、G-Refineは文字-画像生成の実用化に大きく貢献できると期待される。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies