Das Forschungspapier konzentriert sich darauf, wie aktuelle Text-zu-Bild-Systeme Schwierigkeiten haben, explizite räumliche Beziehungen wie "links von" oder "unterhalb" korrekt darzustellen. Durch die Einführung des Spatial Relation for Generation (SR4G) Datensets, das 9,9 Millionen Bildunterschriftenpaare für das Training enthält, wird gezeigt, dass die Feinabstimmung von Stable Diffusion-Modellen zu einer Verbesserung der VISOR-Metrik um bis zu 9 Punkte führt. Die Verbesserung gilt auch für unbekannte Objekte, was darauf hindeutet, dass die Modelle in der Lage sind, Beziehungen zu lernen und auf unbekannte Objekte zu verallgemeinern. Das Datenset und der Code sind öffentlich verfügbar.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ander Salabe... alle arxiv.org 03-04-2024
https://arxiv.org/pdf/2403.00587.pdfDomande più approfondite