Core Concepts
Die Verwendung von Sprachsignalen kann die Leistung der automatischen Diakritikenwiederherstellung für Sprachdatensätze im Vergleich zu rein textbasierten Modellen deutlich verbessern.
Abstract
Der Artikel untersucht die Möglichkeit, die Leistung der automatischen Diakritikenwiederherstellung für Sprachdaten durch die Nutzung paralleler gesprochener Äußerungen zu verbessern. Dazu wird ein vortrainiertes Whisper-ASR-Modell verwendet, um grob diakritialisierte Transkripte der Sprachäußerungen zu erstellen, die dann als zusätzliche Eingabe für Diakritikenwiederherstellungsmodelle dienen.
Die Ergebnisse zeigen, dass der vorgeschlagene Rahmen die Diakritikenfehlerhäufigkeit im Vergleich zu rein textbasierten Basismodellen deutlich reduziert, was auf die Unzulänglichkeit aktueller textbasierter Diakritikenwiederherstellungsmodelle für Sprachdatensätze hinweist und einen neuen Ausgangspunkt für sprachbasierte Diakritikenwiederherstellung liefert.
Die Leistung des vorgeschlagenen Rahmens hängt teilweise von der Leistung des verwendeten ASR-Modells ab. Da diakritialisierte Datensätze für Hocharabisch (MSA) und Dialektarabisch (DA) begrenzt sind, sind weitere Verbesserungen erforderlich, um die Leistung für diese Varianten zu steigern.
Stats
Die Verwendung des vorgeschlagenen Rahmens führt zu einer 45%igen relativen Reduzierung der Diakritikenfehlerhäufigkeit im Vergleich zum besten textbasierten Basismodell.
Die LSTM-Architektur zeigt insgesamt eine bessere Leistung als das Transformer-Modell.
Quotes
"Automatische textbasierte Diakritikenwiederherstellungsmodelle haben im Allgemeinen hohe Diakritikenfehlerhäufigkeiten, wenn sie auf Sprachtranskripte angewendet werden, da es zu Domänen- und Stilverschiebungen in der gesprochenen Sprache kommt."
"Die Existenz von gekoppelten Text- und Sprachdaten bietet eine Gelegenheit, eine zusätzliche Modalität zur Disambiguierung und Diakritikenwiederherstellung zu nutzen."