Der Artikel untersucht die Möglichkeit, die Leistung der automatischen Diakritikenwiederherstellung für Sprachdaten durch die Nutzung paralleler gesprochener Äußerungen zu verbessern. Dazu wird ein vortrainiertes Whisper-ASR-Modell verwendet, um grob diakritialisierte Transkripte der Sprachäußerungen zu erstellen, die dann als zusätzliche Eingabe für Diakritikenwiederherstellungsmodelle dienen.
Die Ergebnisse zeigen, dass der vorgeschlagene Rahmen die Diakritikenfehlerhäufigkeit im Vergleich zu rein textbasierten Basismodellen deutlich reduziert, was auf die Unzulänglichkeit aktueller textbasierter Diakritikenwiederherstellungsmodelle für Sprachdatensätze hinweist und einen neuen Ausgangspunkt für sprachbasierte Diakritikenwiederherstellung liefert.
Die Leistung des vorgeschlagenen Rahmens hängt teilweise von der Leistung des verwendeten ASR-Modells ab. Da diakritialisierte Datensätze für Hocharabisch (MSA) und Dialektarabisch (DA) begrenzt sind, sind weitere Verbesserungen erforderlich, um die Leistung für diese Varianten zu steigern.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor