Der Artikel untersucht die Möglichkeit, die Leistung der automatischen Diakritikenwiederherstellung für Sprachdaten durch die Nutzung paralleler gesprochener Äußerungen zu verbessern. Dazu wird ein vortrainiertes Whisper-ASR-Modell verwendet, um grob diakritialisierte Transkripte der Sprachäußerungen zu erstellen, die dann als zusätzliche Eingabe für Diakritikenwiederherstellungsmodelle dienen.
Die Ergebnisse zeigen, dass der vorgeschlagene Rahmen die Diakritikenfehlerhäufigkeit im Vergleich zu rein textbasierten Basismodellen deutlich reduziert, was auf die Unzulänglichkeit aktueller textbasierter Diakritikenwiederherstellungsmodelle für Sprachdatensätze hinweist und einen neuen Ausgangspunkt für sprachbasierte Diakritikenwiederherstellung liefert.
Die Leistung des vorgeschlagenen Rahmens hängt teilweise von der Leistung des verwendeten ASR-Modells ab. Da diakritialisierte Datensätze für Hocharabisch (MSA) und Dialektarabisch (DA) begrenzt sind, sind weitere Verbesserungen erforderlich, um die Leistung für diese Varianten zu steigern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Sara Shatnaw... alle arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.10771.pdfDomande più approfondite