Core Concepts
ユーザー提供のプロンプトに基づいて、関連性の高いアダプター(LoRAなど)を自動的に選択し、組み合わせることで、視覚的な忠実度、イメージの多様性、テキストとの整合性を向上させる。
Abstract
本論文は、ディフュージョンモデルにおけるアダプターの自動選択と組み合わせの問題を探究している。
まず、リファイナーコンポーネントでは、ビジョン・ランゲージモデル(VLM)とテキストエンコーダを使ってアダプターの説明文とそのテキストエンベディングを生成する。次に、リトリーバーコンポーネントでは、ユーザープロンプト全体に対する類似度に基づいて、関連性の高いアダプターを検索する。最後に、コンポーザーコンポーネントでは、プロンプトのキーワードに基づいて、検索されたアダプターを特定のタスクに割り当てる。これにより、関連性の高いアダプターを選択し、適切に組み合わせることができる。
提案手法であるStylusは、人間評価、自動メトリクス(CLIP、FID)、VLMによる評価において、既存のStable Diffusionモデルを上回る性能を示した。特に、イメージの多様性と視覚的な忠実度が向上している。また、Stylusは画像変換やインペインティングなどの他のビジュアルタスクにも適用可能である。
Stats
LoRAは100,000を超えるアダプターを持つ最も一般的なファインチューニング手法である。
Stylusは、ユーザープロンプトに基づいて、より関連性の高いアダプターを選択し、組み合わせることで、Stable Diffusionモデルよりも高いCLIPスコアとFIDスコアを達成した。
Quotes
"Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs."
"As the ecosystem expands, the number of adapters has grown to over 100K, with Low-Rank Adaptation (LoRA) emerging as the dominant finetuning approach."