Der Artikel präsentiert einen neuartigen Trainings- und Decodier-Ansatz für faktorisierte Transducer-Modelle (FT-Modelle) in der automatischen Spracherkennung.
Zunächst wird das interne Sprachmodell (ILM) separat mit textbasierten Daten trainiert. Anschließend wird das FT-Modell gemeinsam mit dem RNN-T-Verlust optimiert. Beim Decodieren wird eine neue ILM-Fusionsstrategie vorgeschlagen, die den Blank-, Akustik- und ILM-Score effektiv kombiniert.
Die Experimente zeigen, dass dieser Ansatz eine 17%ige relative Verbesserung gegenüber der Standard-Decodierung erzielt, wenn ein gut trainiertes ILM und die vorgeschlagene Decodier-Strategie auf LibriSpeech-Datensätze angewendet werden. Im Vergleich zu einem starken RNN-T-Basismodell mit externer Sprachmodell-Fusion liefert das vorgeschlagene Modell eine 5,5%ige relative Verbesserung auf allgemeinen Testsets und eine 8,9%ige WER-Reduktion für seltene Wörter.
Um die Leistung weiter zu verbessern, wird eine neuartige und speichereffiziente ILM-Fusions-bewusste MWER-Trainingsmethode vorgeschlagen, die die Integration des ILM deutlich verbessert.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Jinxi Guo,Ni... um arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01716.pdfTiefere Fragen