Core Concepts
Dieses Forschungsprojekt präsentiert die Erstellung eines umfangreichen Datensatzes von über 1200 Sign Language Deepfake Videos, die sowohl visuell als auch linguistisch glaubwürdig sind. Die Videos zeigen verschiedene Stil- und Positionstransfers zwischen realen Personen. Eine eingehende Analyse bestätigt die Authentizität und Interpretierbarkeit der gefälschten Videos. Maschinelle Lernmodelle hatten Schwierigkeiten, echte von gefälschten Videos perfekt zu klassifizieren, was die beabsichtigte visuelle Realität der Deepfakes belegt. Auch ein Experte für Gebärdensprache zeigte Verwirrung bei der Identifizierung von Deepfake Gebärdensprachvideos.
Abstract
Das Forschungsprojekt hatte zum Ziel, einen umfangreichen und glaubwürdigen Datensatz von Sign Language Deepfake Videos zu erstellen. Dazu wurde ein modifiziertes First Order Motion Model (FOMM) verwendet, um präzise Handbewegungen und Details zu generieren. Der Datensatz umfasst 1212 Videos mit 38 verschiedenen Personen, darunter 32 bisher unbekannte Subjekte.
Die Authentizität und Interpretierbarkeit der Deepfake Videos wurde auf zwei Arten analysiert:
Linguistische Analyse:
Ein Gebärdensprachexperte transkribierte und bewertete zufällig ausgewählte echte und gefälschte Videos, ohne zu wissen, welche echt und welche gefälscht waren.
Die Transkriptionen der echten und gefälschten Videos zeigten eine hohe Ähnlichkeit, gemessen an verschiedenen Textähnlichkeitsmetriken wie BLEU, Jaccard-Ähnlichkeit und Levenshtein-Distanz.
Der Experte hatte Schwierigkeiten, echte von gefälschten Videos zuverlässig zu unterscheiden.
Visuelle Analyse:
Verschiedene Maschinenlernmodelle wie ConvLSTM, CNN, Random Forest und SVM wurden trainiert, um echte von gefälschten Videos zu klassifizieren.
Keines der Modelle konnte perfekt zwischen echten und gefälschten Videos unterscheiden, was die beabsichtigte visuelle Realität der Deepfakes belegt.
Das Random Forest Modell zeigte die beste Leistung bei der Erkennung von gefälschten Videos, während das SVM Modell besser echte Videos erkannte.
Insgesamt zeigen die Ergebnisse, dass die erstellten Sign Language Deepfake Videos sowohl visuell als auch linguistisch glaubwürdig sind. Der Datensatz bietet eine wichtige Grundlage für die Entwicklung von Methoden zur Erkennung von Deepfake Gebärdensprachvideos.
Stats
Die Transkriptionen der gefälschten Videos stimmen zu mindestens 90% mit denen der echten Videos überein.
Das Random Forest Modell erreichte eine Genauigkeit von über 90% bei der Erkennung von gefälschten Videos.
Das SVM Modell erreichte eine Sensitivität von über 80% bei der Erkennung von echten Videos.
Quotes
"Die generierten Deepfake-Videos sind vergleichbar mit echten Gebärdensprachvideos."
"Unsere Methode erzeugt visuell überzeugende Deepfake-Videos, auch mit völlig neuen Personen."