Core Concepts
Eine effiziente Strategie zum Übertragen hochqualitativer visueller Merkmale großer Bildsprach-Modelle auf die kontinuierliche Gebärdenspracherkennung, die trotz hoher Effizienz die Leistung bestehender Methoden deutlich übertrifft.
Abstract
Der Artikel beschreibt eine neuartige Strategie namens "AdaptSign", um große Bildsprach-Modelle wie CLIP effizient für die kontinuierliche Gebärdenspracherkennung (CSLR) anzupassen.
Obwohl diese großen Modelle beeindruckende Leistungen in einer Vielzahl von Aufgaben zeigen, ist es aufgrund ihrer massiven Größe und der Datenknapphheit in Downstream-Aufgaben wie CSLR schwierig, sie direkt feinabzustimmen. AdaptSign löst dieses Problem, indem es den eingefrorenen CLIP-Backbone als visuellen Extraktor verwendet und mehrere leichtgewichtige lernbare Module darauf aufbaut, um spezifische Merkmale für Gebärdenvideos zu erlernen. Dazu gehören:
Adapter-Modulen, die die Zwischenschichten des CLIP-Modells an die Zieldomäne anpassen
Prefix-Einbettungen, um domänenspezifisches Wissen in das Modell einzubringen
Multiskalenintegration, um Merkmale verschiedener Hierarchieebenen zu kombinieren
Kreuzrahmen-Aufmerksamkeit, um zeitliche Bewegungsmerkmale zu erfassen
Trotz der hohen Effizienz (nur 3,2% zusätzliche Berechnungen) übertrifft AdaptSign die Leistung bestehender CSLR-Methoden deutlich auf gängigen Benchmarks wie PHOENIX14, PHOENIX14-T, CSL-Daily und CSL. Visualisierungen zeigen, dass das Modell lernt, sich auf informative Regionen wie Hände und Gesicht zu konzentrieren und deren Bewegungsverläufe über die Zeit zu erfassen.
Stats
AdaptSign erzielt eine Wortfehlerrate (WER) von 18,5% auf dem PHOENIX14-Entwicklungsdatensatz und 19,4% auf dem Testdatensatz.
AdaptSign benötigt nur 1,15-mal so lange pro Trainingsschritt wie ein eingefrorenes CLIP-Modell, ist also deutlich effizienter als das vollständige Feinabstimmen.
Quotes
"Trotz hoher Effizienz übertrifft AdaptSign die Leistung bestehender CSLR-Methoden deutlich auf gängigen Benchmarks."
"Visualisierungen zeigen, dass das Modell lernt, sich auf informative Regionen wie Hände und Gesicht zu konzentrieren und deren Bewegungsverläufe über die Zeit zu erfassen."