本研究では、テキスト指定の画像生成モデルの性能を向上させるために、テキストエンコーダの微調整に取り組んでいる。従来のテキスト指定画像生成モデルでは、生成された画像がテキストプロンプトと十分に整合していないという課題があった。また、高品質な画像を生成するためには、慎重にプロンプトを設計する必要があった。
本研究では、テキストエンコーダを報酬関数に基づいて微調整することで、これらの課題を解決する手法「TextCraftor」を提案している。具体的には以下の通り:
画像の美的評価や、テキストと画像の整合性を評価する報酬関数を用いて、テキストエンコーダを微調整する。これにより、生成された画像の品質とテキストとの整合性が大幅に向上する。
報酬関数を組み合わせることで、一般性の高いモデルを得ることができる。また、微調整したテキストエンコーダを組み合わせることで、スタイル制御も可能となる。
テキストエンコーダの微調整は、UNetの微調整とも相補的であり、両者を組み合わせることでさらなる性能向上が可能である。
本手法は、大規模なテキスト指定画像生成モデルの性能を大幅に向上させることができ、人間評価でも優位性が示された。また、他のタスクにも適用可能であり、汎用性の高い手法である。
翻譯成其他語言
從原文內容
arxiv.org
深入探究