Der Artikel befasst sich mit der Herausforderung, Text-zu-Bild-Diffusionsmodelle effizient und genau zu bewerten. Die Autoren stellen fest, dass der Bewertungsprozess oft sehr rechenintensiv ist, was die erforderlichen regelmäßigen Bewertungen der Modellleistung (z.B. zur Überwachung des Trainingsverlaufs) unpraktisch macht.
Um die Bewertungseffizienz zu verbessern, schlagen die Autoren vor, eine repräsentative Teilmenge der Text-Bild-Datensätze auszuwählen. Sie untersuchen systematisch verschiedene Auswahlkriterien (textuelle Merkmale oder bildbasierte Metriken) und Auswahlgranularitäten (prompt-basiert oder satz-basiert).
Die Autoren stellen fest, dass die Erkenntnisse aus früheren Arbeiten zur Teilmengenauswahl für Trainingsdaten nicht auf dieses Problem übertragbar sind. Daher entwickeln sie FlashEval, einen iterativen Suchalgorithmus, der speziell auf die Auswahl von Bewertungsdaten ausgerichtet ist.
FlashEval zeigt sich effektiv beim Ranking von Diffusionsmodellen mit verschiedenen Konfigurationen auf den COCO- und DiffusionDB-Datensätzen. Eine von FlashEval identifizierte Teilmenge von 50 Elementen erreicht eine vergleichbare Bewertungsqualität wie eine zufällig ausgewählte Teilmenge von 500 Elementen, bei einer 10-fachen Beschleunigung der Bewertung.
Die Autoren veröffentlichen die verdichteten Teilmengen dieser weit verbreiteten Datensätze, um die Entwicklung und Bewertung von Diffusionsalgorithmen zu erleichtern, und stellen FlashEval als Tool zum Verdichten zukünftiger Datensätze zur Verfügung.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor