Der Bericht beschreibt ein Projekt zur Verbesserung der Leistung von End-to-End-Automatic-Speech-Recognition-Modellen für Code-Switching-Sprache zwischen Gujarati und Englisch.
Der Hauptansatz besteht darin, die Transformer-Schichten des Modells so zu konditionieren, dass sie die Sprachkennung der Wörter und Zeichen in der Ausgabe in einer pro Schicht überwachten Art und Weise berücksichtigen. Dazu werden zwei Methoden vorgeschlagen:
Trotz der Unfähigkeit, die Wortfehlerrate (WER) signifikant zu reduzieren, zeigt die Methode Erfolg bei der korrekten Vorhersage der Sprache aus den Sprachdaten allein. Um die Kontinuität in der Eingabeausrichtung beizubehalten, wird auch ein Temporal Loss eingeführt.
Verschiedene Experimente mit unterschiedlichen Verlustfunktionen (CTC, Label Smoothing, Seamless Temporal Classification) und Trainingsstrategien (gemeinsames Training, teilweises Gating) werden durchgeführt und analysiert. Obwohl keine signifikante Verbesserung der WER erzielt wird, zeigt die qualitative Analyse, dass das Modell die Sprache der Sprachsegmente gut vorhersagen kann.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yash Sharma,... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08011.pdfConsultas más profundas