現在のテキストから画像への生成モデルは、テキストプロンプトで指定された空間関係を一貫して生成することができない。本研究では、この課題に取り組むため、大規模な空間関係に焦点を当てたデータセットを開発し、効率的な学習手法を提案することで、空間的整合性を大幅に向上させている。