Core Concepts
Ein trainingsfreier Rahmen, der die Überlappung von Schlüsselwörtern minimiert und Rechtschreibfehler in der generierten Bildtexte korrigiert, kann die Leistung von zweistufigen Bildgenerierungsmodellen deutlich verbessern.
Abstract
Die Studie untersucht die Herausforderungen bei der Generierung von Bildern mit längeren und komplexeren visuellen Texten. Dafür wurde ein spezieller Evaluationsrahmen namens LenCom-EVAL entwickelt, der drei Datensätze umfasst: MARIO-Hard, Aug-MARIO-Hard und Random Word Combination (RWC).
Die Analyse der Ergebnisse bestehender Modelle wie TextDiffuser zeigte drei Hauptprobleme auf:
Nachlassende Leistung bei zunehmender Textlänge
Schlechte Layoutgenerierung mit überlappenden Textbegrenzungsboxen
Unfähigkeit, sich genau an die Textvorlagen zu halten
Um diese Probleme anzugehen, wurde ein trainingsfreier Rahmen namens SA-OcrPaint entwickelt. Dieser besteht aus zwei Komponenten:
Ein Simulated-Annealing-Algorithmus, um die Überlappung der Textbegrenzungsboxen zu minimieren
Ein OCR-gesteuertes rekursives Inpainting-Verfahren, um Rechtschreibfehler in den generierten Bildern zu korrigieren
Die Experimente zeigen, dass SA-OcrPaint die Leistung des Basismodells TextDiffuser deutlich verbessert, z.B. um mehr als 23% und 13,5% bei der OCR-Wort-F1-Metrik auf den LenCom-EVAL- und MARIO-EVAL-Datensätzen. Damit setzt SA-OcrPaint neue State-of-the-Art-Ergebnisse auf MARIO-EVAL.
Stats
Die Leistung von TextDiffuser sinkt, wenn die Anzahl der Schlüsselwörter in einem Bild zunimmt.
Die Überlappungsfläche der Begrenzungsboxen für Schlüsselwörter nimmt zu, wenn die Anzahl der Schlüsselwörter zunimmt.
Quotes
Keine relevanten Zitate gefunden.