本研究は、テキストから画像への生成モデルの空間的整合性の向上に取り組んでいる。
まず、現在のビジョン・言語データセットでは空間関係が十分に表現されていないことを明らかにした。そこで、約600万枚の画像に空間関係に焦点を当てた新しいキャプションを付与し、「SPRIGHT」データセットを作成した。SPRIGHTのキャプションは、画像の細かな空間的関係を詳細に記述しており、既存のデータセットに比べて大幅に空間関係の表現が向上している。
次に、SPRIGHTのデータを効率的に活用する学習手法を開発した。具体的には、物体が多数含まれる画像を少量(500枚未満)使用して学習することで、空間的整合性を大幅に向上させることができた。これにより、ベースラインモデルに比べて22%の空間スコアの向上、31.04%のFID改善、29.72%のCMMD改善を達成した。さらに、この手法を用いて、T2I-CompBenchベンチマークにおいて最先端の性能を達成した。
また、SPRIGHTデータの特性を詳しく分析し、空間キャプションの長さや一般的なキャプションとの組み合わせ、CLIP言語エンコーダの空間表現の特徴などを明らかにした。さらに、否定表現の扱いや注意機構の改善など、空間的整合性の向上に向けた様々な知見を得ている。
本研究は、テキストから画像への生成における空間的整合性の課題に包括的に取り組み、効果的な解決策を提示している。SPRIGHTデータセットと提案手法は、この分野の研究を大きく前進させるものと期待される。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы