本論文では、テキストからイメージを生成する際の整合性の問題に取り組んでいる。従来のテキストからイメージ生成モデルでは、生成されたイメージとテキストプロンプトの整合性が十分ではない問題があった。
著者らは、この問題の根本原因は、テキストの各トークンに対する注意が十分ではないことにあると分析した。そこで、画像キャプショニングモデルを活用したコンセプトマッチング手法を提案した。具体的には、生成されたイメージをキャプショニングモデルに入力し、テキストプロンプトとの整合性を評価する。この評価結果に基づいて、生成モデルのパラメータを更新し、見落とされたテキストトークンに注意を向けさせる。
さらに、属性とエンティティの整合性を高めるため、属性集中モジュールを導入した。これにより、エンティティ内の領域に属性が集中するよう学習させる。
最後に、生成モデルの元の能力を維持するため、敵対的損失関数を導入した。
提案手法 CoMat は、テキストプロンプトのみを使って学習でき、画像-テキストペアやヒューマンラベルデータを必要としない。定量的・定性的な評価から、CoMat は従来手法に比べて大幅な性能向上を示すことが確認された。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询