Główne pojęcia
Durch das Einführen eines parallelen Netzwerkzweigs, der ein verzerrtes Bild als zusätzliches Diskrepanzsignal verwendet, kann ein universelleres und robusteres Deepfake-Erkennungssystem entwickelt werden.
Streszczenie
In dieser Arbeit wird ein Ansatz zur Skalierung der Deepfake-Erkennung vorgestellt, um mit der rasanten Entwicklung von Generative-AI-Technologien Schritt zu halten. Der vorgeschlagene Ansatz, Discrepancy Deepfake Detector (D3) genannt, zielt darauf ab, universelle Artefakte aus mehreren Generatoren zu lernen, indem ein paralleler Netzwerkzweig verwendet wird, der ein verzerrtes Bild als zusätzliches Diskrepanzsignal verwendet.
Die Autoren identifizieren zwei Herausforderungen bei der Skalierung bestehender Deepfake-Erkennungsmethoden auf mehrere Generatoren:
- Die bestehenden Methoden haben Schwierigkeiten, umfassende und universelle Artefakte zu lernen, wenn die Fake-Bilder im Training unterschiedliche Fingerabdruckmuster von mehr als einem Generator aufweisen.
- Die bestehenden Methoden tendieren dazu, den Kompromiss zwischen Trainings- und Testleistung zu beeinflussen, indem sie das ID-Training "unteranpassen", um eine bessere OOD-Generalisierungsfähigkeit bei Tests zu erreichen.
Der vorgeschlagene D3-Ansatz adressiert diese Herausforderungen, indem er die universellen Artefakte zwischen verschiedenen Generatoren nutzt und lernt. Durch den Vergleich des Originalbildes mit seinem patch-gemischten Gegenstück wird das Modell dazu angeregt, stabilere und invariantere Artefakte zu lernen.
Umfangreiche Experimente auf einem skalierten Datensatz zeigen, dass D3 eine um 5,3% höhere OOD-Testgenauigkeit im Vergleich zu state-of-the-art-Methoden erreicht, während die ID-Leistung beibehalten wird. Darüber hinaus erweist sich D3 als robuster gegenüber Bildverzerrungen wie Gaußschem Weichzeichnen und JPEG-Kompression.
Statystyki
Die Autoren verwenden einen skalierten Datensatz, der aus der Zusammenführung der UniversalFakeDetect (UFD) und GenImage-Datensätze besteht. Der Datensatz enthält insgesamt 20 Generatoren, von denen 8 für das Training und 12 für das Out-of-Domain-Testing verwendet werden.
Cytaty
"Durch das Einführen eines parallelen Netzwerkzweigs, der ein verzerrtes Bild als zusätzliches Diskrepanzsignal verwendet, kann ein universelleres und robusteres Deepfake-Erkennungssystem entwickelt werden."
"Umfangreiche Experimente auf einem skalierten Datensatz zeigen, dass D3 eine um 5,3% höhere OOD-Testgenauigkeit im Vergleich zu state-of-the-art-Methoden erreicht, während die ID-Leistung beibehalten wird."