Der Bericht beschreibt ein Projekt zur Verbesserung der Leistung von End-to-End-Automatic-Speech-Recognition-Modellen für Code-Switching-Sprache zwischen Gujarati und Englisch.
Der Hauptansatz besteht darin, die Transformer-Schichten des Modells so zu konditionieren, dass sie die Sprachkennung der Wörter und Zeichen in der Ausgabe in einer pro Schicht überwachten Art und Weise berücksichtigen. Dazu werden zwei Methoden vorgeschlagen:
Trotz der Unfähigkeit, die Wortfehlerrate (WER) signifikant zu reduzieren, zeigt die Methode Erfolg bei der korrekten Vorhersage der Sprache aus den Sprachdaten allein. Um die Kontinuität in der Eingabeausrichtung beizubehalten, wird auch ein Temporal Loss eingeführt.
Verschiedene Experimente mit unterschiedlichen Verlustfunktionen (CTC, Label Smoothing, Seamless Temporal Classification) und Trainingsstrategien (gemeinsames Training, teilweises Gating) werden durchgeführt und analysiert. Obwohl keine signifikante Verbesserung der WER erzielt wird, zeigt die qualitative Analyse, dass das Modell die Sprache der Sprachsegmente gut vorhersagen kann.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yash Sharma,... um arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08011.pdfTiefere Fragen