Core Concepts
Bestehende lernbasierte Methoden zur Erkennung von gefälschten Bildern versagen, wenn sie mit Bildern von unbekannten generativen Modellen konfrontiert werden. Stattdessen schlagen die Autoren einen Ansatz vor, der auf einem vortrainierten Bildrepräsentationsraum basiert, der nicht explizit für diese Aufgabe trainiert wurde. Dieser Ansatz zeigt eine deutlich bessere Generalisierungsfähigkeit über verschiedene Arten von generativen Modellen hinweg.
Abstract
Die Autoren analysieren zunächst die Limitationen bestehender lernbasierter Methoden zur Erkennung von gefälschten Bildern. Sie stellen fest, dass diese Methoden zwar gut in der Lage sind, Bilder von bekannten generativen Modellen zu erkennen, aber bei Bildern von unbekannten Modellen wie Diffusions- oder autoregressiven Modellen versagen.
Die Autoren führen dies darauf zurück, dass die lernbasierten Klassifikatoren dazu neigen, sich auf niedriglevelige Artefakte zu konzentrieren, die für bestimmte generative Modelle charakteristisch sind. Dadurch wird die "echte" Klasse zu einer Art "Sammelklasse" für alles, was nicht dem Muster der Trainingsbilder entspricht.
Um dieses Problem zu lösen, schlagen die Autoren vor, die Echtheit/Fälschung-Klassifikation in einem Merkmalsraum durchzuführen, der nicht explizit für diese Aufgabe trainiert wurde. Konkret verwenden sie die Merkmale eines großen vortrainierten Vision-Sprache-Modells (CLIP:ViT-L/14) und zeigen, dass sowohl eine einfache Nächste-Nachbarn-Klassifikation als auch eine lineare Klassifikation auf diesen Merkmalen zu einer deutlich besseren Generalisierungsfähigkeit führen.
Die Autoren untersuchen auch, welche Faktoren für die Effektivität dieses Ansatzes wichtig sind, wie z.B. die Architektur und Vortrainings-Datenbasis des verwendeten Bildrepräsentationsmodells. Sie zeigen, dass CLIP-basierte Modelle deutlich besser abschneiden als ImageNet-basierte Modelle.
Insgesamt demonstrieren die Ergebnisse, dass der Ansatz, Klassifikation in einem nicht explizit trainierten Merkmalsraum durchzuführen, eine vielversprechende Lösung für die Herausforderung der generischen Erkennung von gefälschten Bildern darstellt.
Stats
Bilder von ProGAN haben ein charakteristisches Frequenzspektrum-Muster, das sich von Bildern von Diffusionsmodellen unterscheidet.
Ein auf ProGAN-Bildern trainierter Klassifikator klassifiziert fast alle Bilder von Diffusionsmodellen als "echt".
Selbst wenn der Klassifikator-Schwellwert auf dem Testset optimiert wird, erreicht er nicht die Leistung des vorgeschlagenen Ansatzes.
Quotes
"Whenever an image contains the (low-level) fingerprints [25, 49, 51, 52] particular to the generative model used for training (e.g., ProGAN), the image gets classified as fake. Anything else gets classified as real."
"The real class becomes a 'sink class' which hosts anything that is not GAN's version of fake image."