Core Concepts
テキストから画像生成システムは、明示的な空間関係を正確に反映しておらず、提案された手法はこの問題を解決することができる。
Abstract
既存の研究では、現在のテキストから画像へのシステムが左側や下などのオブジェクト間の明示的な空間関係を正確に反映していないことが指摘されています。本研究では、既存の画像を使用して14種類の明示的な空間関係を含む合成キャプションを生成する自動化手法を提案しました。我々はSpatial Relation for Generation(SR4G)データセットを導入し、これにより訓練用に990万以上の画像キャプションペアと評価用に6万以上のキャプションが含まれています。我々はSR4Gを使用して2つの異なるStable Diffusionモデル(SDSR4Gと呼ばれる)をfine-tuningし、VISORメトリックで最大9ポイントの改善が得られることを示しました。この改善は未知分割でも保持され、SDSR4Gが未知オブジェクトにも一般化できることを示しています。SDSR4Gは少ないパラメータで最先端技術を向上させ、複雑なアーキテクチャーを回避します。
Stats
SR4Gデータセット:990万以上の画像キャプションペア
SDSR4Gモデル:VISORメトリックで最大9ポイントの改善
メイン分割:103.4k枚の画像、60.8k個の一意のキャプション、2.5k個のI/Cペア
未知分割:83.6k枚の画像、46.9k個の一意のキャプション、2.5k個のI/Cペア
Quotes
"Existing work has observed that current text-to-image systems do not accurately reflect explicit spatial relations between objects such as left of or below."
"We propose an automatic method that, given existing images, generates synthetic captions that contain 14 explicit spatial relations."
"Our analysis shows that improvement is consistent for all relations."