核心概念
T2Iモデルの識別能力を強化して、より正確なテキストから画像へのアライメントを実現する。
摘要
この記事では、テキストから画像生成(T2I)におけるテキストと画像の不一致問題に焦点を当てています。DPTという二段階メソッドが導入され、最初の段階では基本的な識別能力を探るために識別アダプターが使用され、第二段階では識別的な微調整が行われます。DPTは5つのT2Iデータセットと4つのITMおよびRECデータセットで効果的で汎用性があります。
統計資料
DPTは3つのベンチマークデータセットで優れたパフォーマンスを示す。
SD-v1.4とSD-v2.1に比べて、DPTはテキストと画像のアライメントを著しく向上させる。
DPTはCC-500およびABC-6Kで優れた性能を発揮し、他のプロンプト分布に対する強力な汎化能力を示す。
DPTはITMおよびRECタスクで既存の最先端ジェネレーティブ手法を大幅に上回る。