Die Autoren haben die größte Datenbank zur Bewertung der Qualität von KI-generierten Bildern (AIGIQA-20K) erstellt, die 20.000 Bilder und 420.000 subjektive Bewertungen umfasst. Sie haben 15 gängige Textzu-Bild-Modelle verwendet und deren Hyperparameter dynamisch angepasst, um die tatsächliche Bildverzerrung zu erfassen. Außerdem haben sie umfassende Benchmarktests durchgeführt, um die Leistung gängiger Qualitätsmetriken zu bewerten.
Ziel ist die Entwicklung eines Modells, das Bewertungen für Metrikparameter wie Wahrnehmungsqualität, Authentizität und Übereinstimmung zwischen Text und Bild liefert, die besser mit der menschlichen Wahrnehmung übereinstimmen.
Wir stellen ein multimodales Framework namens IP-IQA vor, das sowohl Bilder als auch zugehörige Textbeschreibungen berücksichtigt, um die Qualität von KI-generierten Bildern umfassend zu bewerten. Unser Ansatz überwindet die Beschränkungen herkömmlicher Bildqualitätsbewertungsmethoden, die nur auf visuelle Aspekte fokussieren, und integriert stattdessen die Beziehung zwischen Bild und Text, um eine ganzheitliche Bewertung zu ermöglichen.