Die Studie präsentiert einen neuartigen Ansatz, um Visual-Language-Modelle (VLMs) durch die Verwendung von synthetisch generierten Bild-Text-Paaren zu verbessern. Der Ansatz, der als "Synth2" bezeichnet wird, nutzt die Fähigkeiten von Großen Sprachmodellen (LLMs) und Bild-Generatoren, um hochwertige synthetische Bild-Text-Paare zu erstellen.
Der Prozess umfasst zwei Hauptschritte:
Die so erstellten synthetischen Bild-Text-Paare werden dann zusammen mit menschlich annotierten Daten verwendet, um ein VLM zu trainieren. Die Experimente zeigen, dass das VLM, das mit den synthetischen Daten trainiert wurde, eine deutlich bessere Leistung bei der Bildbeschriftung aufweist als ein Modell, das nur mit menschlich annotierten Daten trainiert wurde. Darüber hinaus ist der Ansatz sehr dateneffizient und benötigt nur einen Bruchteil der menschlich annotierten Daten, um eine vergleichbare Leistung zu erzielen.
Ein weiterer Vorteil des Ansatzes ist, dass die Bildgenerierung direkt im Bildeinbettungsraum erfolgt, was die Effizienz deutlich erhöht, ohne die Leistung zu beeinträchtigen. Der Vergleich mit verwandten Arbeiten zeigt, dass Synth2 eine vielversprechende Technik ist, um die Leistung von VLMs bei deutlich geringerem Ressourcenverbrauch zu verbessern.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania