本研究では、テキストからイメージ生成タスクにおける注意制御の重要性に着目し、効率的な訓練フリーの注意制御手法を提案した。
自己注意層では、温度制御を用いてエンティティの境界を明確に形成する。交差注意層では、オブジェクトフォーカスのマスキングと動的な重み付け戦略を導入し、異なる生成段階でプロンプトの各セマンティック要素に焦点を当てることができる。
実験結果は、提案手法が最先端の性能を達成し、エンティティのリークと属性の不整合を効果的に軽減できることを示している。定量的評価では、FID、CLIP Scoreで優れた結果を得た。さらに、人間評価実験では、色、コンテンツ、数値、質感、時間、位置などの様々な観点でアラインメントが大幅に改善されていることが確認された。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yihang Wu,Xi... klokken arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13899.pdfDypere Spørsmål