Core Concepts
Durch den Einsatz spezialisierter überwachter Transferlernmethoden kann die Leistung gegenüber grundlegenden Feinabstimmungsansätzen bei der Erkennung isolierter Gebärdensprache über Datensätze hinweg verbessert werden.
Abstract
In dieser Studie wird ein öffentlich verfügbarer Benchmark für den Transferlernansatz zwischen zwei bestehenden öffentlichen türkischen Gebärdensprachdatensätzen erstellt. Es wird ein zeitlicher Graph-Convolutions-basierter Ansatz zur Gebärdenspracherkennung verwendet, um fünf verschiedene überwachte Transferlernansätze zu evaluieren und Experimente mit geschlossenen und teilweisen Datensatz-Transferlernszenarien durchzuführen.
Die Experimente zeigen, dass eine Verbesserung gegenüber Feinabstimmungsansätzen für das Transferlernen möglich ist, wenn spezialisierte überwachte Transferlernmethoden wie Minimum Class Confusion (MCC), Domain Adversarial Neural Network (DANN), Joint Adaptation Network (JAN) und Domain Specific Batch Normalization (DSBN) eingesetzt werden.
Im geschlossenen Datensatz-Transferlernfall übertrifft der JAN-Ansatz die Baseline-Feinabstimmungsgenauigkeit mit 88,48% für den Einzelnutzerfall. Im teilweisen Datensatz-Transferlernfall erreicht der MCC-Algorithmus 90,56% bzw. 98,63% Genauigkeit für die BSign22ksingle- und BSign22kshared-Teilmengen, was eine Verbesserung von 5% bzw. 1% gegenüber den Transferlernbaselines darstellt.
Die Fusion von Feinabstimmung und MCC-Ansätzen führt zu einer weiteren Steigerung der Genauigkeit auf 98,8% auf dem BSign22kshared-Datensatz. Die Ergebnisse zeigen, dass der Einsatz von Transferlernmethoden, die sich auf verschiedene Aspekte neuronaler Netzwerke wie Normalisierungsschichten, Initialisierung und Verlustfunktionen konzentrieren, zu einer weiteren Verbesserung der Leistung führen kann.
Stats
Die BSign22k-Teilmenge enthält 1496 Trainingsvideo und 498 Validierungsvideos für 57 gemeinsame Zeichen.
Die AUTSLshared-Teilmenge enthält 7076 Trainingsvideo und 935 Validierungsvideos für 57 gemeinsame Zeichen.
Die AUTSL-Gesamtdaten enthalten 28139 Trainingsvideo und 3742 Validierungsvideos für 216 Zeichen.
Quotes
"Durch den Einsatz spezialisierter überwachter Transferlernmethoden kann die Leistung gegenüber grundlegenden Feinabstimmungsansätzen bei der Erkennung isolierter Gebärdensprache über Datensätze hinweg verbessert werden."
"Die Fusion von Feinabstimmung und MCC-Ansätzen führt zu einer weiteren Steigerung der Genauigkeit auf 98,8% auf dem BSign22kshared-Datensatz."