Durch die Anpassung eines Grundlagenmodells (CLIP) mit einem neuartigen seitenbasierten Decoder, der räumliche und zeitliche Hinweise nutzt, sowie einer Führung durch Gesichtsmerkmale kann eine robuste und generalisierbare Erkennung von Deepfake-Videos erreicht werden.
Durch Erweiterung des Fälschungsraums durch Latent-Space-Augmentierung kann ein robusterer Entscheidungsgrenzwert erlernt werden, um Überanpassung an fälschungsspezifische Merkmale zu vermeiden.
Dieser Artikel stellt einen umfassenden und konsistenten Benchmark zur ganzheitlichen und fairen Bewertung bestehender Deepfake-Erkennungsansätze vor. Durch großangelegte Experimente mit mehreren fairen und praktischen Bewertungsmetriken wird gezeigt, dass Datenkonsistenz zu unfairen Vergleichen zwischen gängigen Ansätzen führen kann. Ein herausfordernder ID-Testdatensatz mit manipulierten Samples, die sowohl für Menschen als auch für Erkennungsalgorithmen nicht unterscheidbar sind, wird für eine bessere Bewertung und ein tieferes Verständnis des Stands der Technik bei Deepfake-Erkennungsmethoden gesammelt. Die Bewertungsergebnisse zeigen, dass die bestehenden beliebten Deepfake-Erkennungsalgorithmen den Erwartungen für den Einsatz in der Realwelt noch weit hinterherhinken. Die Bewertung aus mehreren Perspektiven zeigt, dass verschiedene Algorithmen ihre eigenen Vorteile haben und kein einziger Ansatz umfassend überlegen ist.