Verbesserung der räumlichen Konsistenz in Text-zu-Bild-Modellen
Aktuelle Text-zu-Bild-Modelle sind nicht in der Lage, Bilder zu generieren, die den in den Textaufforderungen angegebenen räumlichen Beziehungen treu bleiben. Diese Arbeit untersucht dieses Problem umfassend und entwickelt Datensätze und Methoden, die den aktuellen Stand der Technik übertreffen.