本論文では、VersaT2Iと呼ばれる新しいフレームワークを提案している。VersaT2Iは、テキスト-画像生成モデルの性能を向上させるための多様な報酬シグナルを活用する。
具体的には、画像の質を以下の4つの側面に分解する:
各側面について、対応する評価モデルを用いて生成された画像を評価し、高得点の画像を選抜してテキスト-画像生成モデルの fine-tuning に使用する。これにより、各側面の性能を個別に向上させることができる。
さらに、これらの個別の LoRA モデルを組み合わせる「Mixture of LoRA」という手法を提案している。これにより、複数の側面の性能を同時に向上させることができる。
実験の結果、VersaT2Iは既存手法と比べて、様々な評価指標で優れた性能を示すことが確認された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究