Die Autoren analysieren zunächst die Limitationen bestehender lernbasierter Methoden zur Erkennung von gefälschten Bildern. Sie stellen fest, dass diese Methoden zwar gut in der Lage sind, Bilder von bekannten generativen Modellen zu erkennen, aber bei Bildern von unbekannten Modellen wie Diffusions- oder autoregressiven Modellen versagen.
Die Autoren führen dies darauf zurück, dass die lernbasierten Klassifikatoren dazu neigen, sich auf niedriglevelige Artefakte zu konzentrieren, die für bestimmte generative Modelle charakteristisch sind. Dadurch wird die "echte" Klasse zu einer Art "Sammelklasse" für alles, was nicht dem Muster der Trainingsbilder entspricht.
Um dieses Problem zu lösen, schlagen die Autoren vor, die Echtheit/Fälschung-Klassifikation in einem Merkmalsraum durchzuführen, der nicht explizit für diese Aufgabe trainiert wurde. Konkret verwenden sie die Merkmale eines großen vortrainierten Vision-Sprache-Modells (CLIP:ViT-L/14) und zeigen, dass sowohl eine einfache Nächste-Nachbarn-Klassifikation als auch eine lineare Klassifikation auf diesen Merkmalen zu einer deutlich besseren Generalisierungsfähigkeit führen.
Die Autoren untersuchen auch, welche Faktoren für die Effektivität dieses Ansatzes wichtig sind, wie z.B. die Architektur und Vortrainings-Datenbasis des verwendeten Bildrepräsentationsmodells. Sie zeigen, dass CLIP-basierte Modelle deutlich besser abschneiden als ImageNet-basierte Modelle.
Insgesamt demonstrieren die Ergebnisse, dass der Ansatz, Klassifikation in einem nicht explizit trainierten Merkmalsraum durchzuführen, eine vielversprechende Lösung für die Herausforderung der generischen Erkennung von gefälschten Bildern darstellt.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Utkarsh Ojha... pada arxiv.org 04-02-2024
https://arxiv.org/pdf/2302.10174.pdfPertanyaan yang Lebih Dalam