Keskeiset käsitteet
Die Verbesserung der Darstellung expliziter räumlicher Beziehungen in Text-zu-Bild-Systemen durch ein automatisch abgeleitetes Datenset führt zu signifikanten Leistungssteigerungen.
Tiivistelmä
Das Forschungspapier konzentriert sich darauf, wie aktuelle Text-zu-Bild-Systeme Schwierigkeiten haben, explizite räumliche Beziehungen wie "links von" oder "unterhalb" korrekt darzustellen. Durch die Einführung des Spatial Relation for Generation (SR4G) Datensets, das 9,9 Millionen Bildunterschriftenpaare für das Training enthält, wird gezeigt, dass die Feinabstimmung von Stable Diffusion-Modellen zu einer Verbesserung der VISOR-Metrik um bis zu 9 Punkte führt. Die Verbesserung gilt auch für unbekannte Objekte, was darauf hindeutet, dass die Modelle in der Lage sind, Beziehungen zu lernen und auf unbekannte Objekte zu verallgemeinern. Das Datenset und der Code sind öffentlich verfügbar.
Struktur:
- Einleitung
- Verwandte Arbeiten
- SR4G: Ein neues synthetisches Datenset für die Generierung expliziter räumlicher Beziehungen
- Experimente und Ergebnisse
- Analyse
Tilastot
Wir schlagen eine automatische Methode vor, die synthetische Bildunterschriften generiert, die 14 explizite räumliche Beziehungen enthalten.
Das SR4G-Datenset enthält 9,9 Millionen Bildunterschriftenpaare für das Training.
Die Feinabstimmung von Stable Diffusion-Modellen auf SR4G führt zu einer Verbesserung der VISOR-Metrik um bis zu 9 Punkte.
Lainaukset
"Wir schlagen eine automatische Methode vor, die, basierend auf vorhandenen Bildern, synthetische Bildunterschriften generiert, die 14 explizite räumliche Beziehungen enthalten."
"Das SR4G-Datenset enthält 9,9 Millionen Bildunterschriftenpaare für das Training und mehr als 60.000 Bildunterschriften für die Evaluation."