Dieser Artikel befasst sich mit dem Problem der Verbesserung der Genauigkeit der Spracherkennung durch Nachskalierung der Gitter in Ressourcen-armen Sprachen, bei denen das Baseline-Sprachmodell nicht ausreicht, um umfassende Gitter zu erzeugen.
Die Autoren schlagen vor, das Baseline-Sprachmodell minimal mit Unigram-Zählungen von Wörtern zu erweitern, die in einem größeren Textkorpus der Zielsprache, aber nicht im Baseline vorhanden sind. Die so erzeugten Gitter sind umfassender für die Nachskalierung.
Die Autoren erzielen eine relative Verbesserung der Wortfehlerrate von 21,8% für Telugu und 41,8% für Kannada mit ihrer vorgeschlagenen Methode. Diese Verbesserung ist vergleichbar mit 21,5% (für Telugu) und 45,9% (für Kannada) relativer Verbesserung der Wortfehlerrate, die durch Dekodierung mit einem vollständig mit Wikipedia-Text erweiterten Sprachmodell erzielt wurde, wobei ihr Ansatz jedoch nur 1/8 des Speichers verbraucht.
Die Autoren zeigen, dass ihr Ansatz mit verschiedenen textbasierten Sprachmodell-Erweiterungen vergleichbar ist und auch für Datensätze unterschiedlicher Größe konsistent ist. Ihr Ansatz ist anwendbar für das Training von Spracherkennungssystemen unter Ressourcen-armen Bedingungen, bei denen Sprachdaten und Rechenressourcen unzureichend sind, während ein großer Textkorpus in der Zielsprache verfügbar ist.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Savitha Murt... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10937.pdfPerguntas Mais Profundas