テキストから画像を生成する際に、顔、服装、髪型、体型の一貫性を維持することで、物語性のある一連の画像を生成する。
テキストによる入力に基づいて、同一のキャラクターを一貫して生成することができる。
マルチモーダル大規模言語モデルを活用して、テキストから画像生成のための大規模で高品質な好みデータセットVisionPreferを構築し、それを用いて生成モデルの人間好みへの整合性を大幅に向上させることができる。
MultiBooth は、テキストから複数のカスタマイズされたコンセプトを含む画像を効率的に生成する新しい手法である。
Latent Guardは、テキストから画像生成モデルの入力テキストに含まれる有害な概念を潜在表現空間で検出することで、安全性を高めるフレームワークである。
OpenBiasは、事前定義された偏見セットに依存せずに、テキストから画像を生成するモデルにおける任意の偏見を発見し、定量化するパイプラインを提案する。
本論文では、テキストから高品質な360度パノラマ画像を生成する新しい手法「PanFusion」を提案する。PanFusionは、パノラマ画像生成と視点画像生成の2つのブランチを持つデュアルブランチ型のディフュージョンモデルであり、両者の協調的な学習により、従来手法よりも高品質で一貫性のあるパノラマ画像を生成できる。
Contrastive Adapter Training (CAT)は、元のモデルの知識を保持しつつ、限られたデータセットでも高品質な個人化画像生成を可能にする。
NeuroPromptsは、ユーザーが提供したプロンプトを自動的に最適化し、テキストから画像生成モデルによって生成される画像の品質を向上させる。
ユーザーの過去の入力プロンプトを活用し、ユーザーの嗜好に合わせてプロンプトを書き換えることで、テキストから画像生成の精度を向上させる。