本研究は、テキストに富んだ画像の生成における課題に取り組んでいる。従来の拡散モデルは、テキストの正確な描画に課題を抱えており、生成された文字や単語がうまくイメージに溶け込めないことが問題となっていた。
提案手法「ARTIST」では、テキストの構造と視覚的な外観を別々に学習する2段階のアプローチを採用している。まず、専用のテキスト拡散モデルを用いてテキストの構造を学習する。次に、この学習済みのテキストモデルから特徴を抽出し、視覚拡散モデルに注入することで、テキストと背景の調和のとれた画像を生成する。
さらに、大規模言語モデル(LLM)を活用して、ユーザーの意図を正確に把握し、適切なプロンプトを自動生成することで、ユーザーの手間を大幅に削減している。
実験の結果、提案手法は既存手法と比べて、画像の忠実度、プロンプトとの整合性、生成されたテキストの正確性において大幅な性能向上を示した。特に、オープンドメインのプロンプトに対する性能が大幅に向上しており、ユーザーの自由度が高まることが確認できた。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Jianyi Zhang... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2406.12044.pdfPerguntas Mais Profundas