核心概念
Feinabstimmung des Vision-Language-Modells zur automatischen Identifizierung und Klassifizierung von Artefakten in synthetischen Bildern.
摘要
In der sich schnell entwickelnden Bildsynthese steht die Linderung von Artefakten im Fokus, um die Qualität synthetischer Bilder zu verbessern. Durch die Feinabstimmung des Vision-Language-Modells (VLM) als Artefaktklassifizierer werden Artefakte identifiziert und klassifiziert. Eine umfassende Artefakt-Taxonomie wird entwickelt, und das SynArtifact-1K-Datenset wird erstellt. Das feinabgestimmte VLM zeigt eine überlegene Fähigkeit zur Identifizierung von Artefakten und übertrifft die Basislinie um 25,66%. Die Ausgabe des VLM wird genutzt, um das generative Modell zur Linderung von Artefakten zu optimieren.
Struktur:
- Einleitung
- Fortschritte in der Bildsynthese durch generative Modelle
- Verwandte Arbeit
- Beurteilung synthetischer Bilder
- Bewertung mit Vision-Language-Modell
- Methodik
- Übersicht des Ansatzes
- Datensatzkonstruktion
- Klassifizierung von Artefakten
- Artefaktlinderung durch RLAIF
- Experimente
- Datensatz und Einstellungen
- Ergebnisse der Artefaktklassifizierung
- Verbesserung des generativen Modells
- Einschränkungen
- Fazit
统计
Das feinabgestimmte VLM übertrifft die Basislinie um 25,66% in der Klassifizierungsgenauigkeit und um 29,01% im F1-Score.
Das SynArtifact-1K-Datenset enthält 1,3k annotierte Bilder mit Artefakten.
引用
"Unsere Hauptbeiträge können wie folgt zusammengefasst werden:..."