この記事では、テキストから画像生成(T2I)におけるテキストと画像の不一致問題に焦点を当てています。DPTという二段階メソッドが導入され、最初の段階では基本的な識別能力を探るために識別アダプターが使用され、第二段階では識別的な微調整が行われます。DPTは5つのT2Iデータセットと4つのITMおよびRECデータセットで効果的で汎用性があります。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Leigang Qu,W... at arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04321.pdfDeeper Inquiries