Der Bericht beschreibt ein Projekt zur Verbesserung der Leistung von End-to-End-Automatic-Speech-Recognition-Modellen für Code-Switching-Sprache zwischen Gujarati und Englisch.
Der Hauptansatz besteht darin, die Transformer-Schichten des Modells so zu konditionieren, dass sie die Sprachkennung der Wörter und Zeichen in der Ausgabe in einer pro Schicht überwachten Art und Weise berücksichtigen. Dazu werden zwei Methoden vorgeschlagen:
Trotz der Unfähigkeit, die Wortfehlerrate (WER) signifikant zu reduzieren, zeigt die Methode Erfolg bei der korrekten Vorhersage der Sprache aus den Sprachdaten allein. Um die Kontinuität in der Eingabeausrichtung beizubehalten, wird auch ein Temporal Loss eingeführt.
Verschiedene Experimente mit unterschiedlichen Verlustfunktionen (CTC, Label Smoothing, Seamless Temporal Classification) und Trainingsstrategien (gemeinsames Training, teilweises Gating) werden durchgeführt und analysiert. Obwohl keine signifikante Verbesserung der WER erzielt wird, zeigt die qualitative Analyse, dass das Modell die Sprache der Sprachsegmente gut vorhersagen kann.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yash Sharma,... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08011.pdfYêu cầu sâu hơn