本論文では、MultiBooth と呼ばれる新しい手法を提案している。MultiBooth は、テキストから複数のカスタマイズされたコンセプトを含む画像を生成することができる。
まず、単一コンセプトの学習フェーズでは、マルチモーダルエンコーダとアダプティブコンセプトノーマライゼーション手法を用いて、各コンセプトの詳細な表現を学習する。次に、マルチコンセプト統合フェーズでは、リージョナルカスタマイゼーションモジュールを使って、複数の単一コンセプトモジュールを効率的に組み合わせることで、マルチコンセプト画像を生成する。
実験の結果、MultiBooth は既存手法と比べて、画像の忠実度とテキストプロンプトとの整合性が高いことが示された。また、学習時間と推論時間も効率的であることが確認された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Chenyang Zhu... às arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14239.pdfPerguntas Mais Profundas