Der Artikel präsentiert einen neuartigen Trainings- und Decodier-Ansatz für faktorisierte Transducer-Modelle (FT-Modelle) in der automatischen Spracherkennung.
Zunächst wird das interne Sprachmodell (ILM) separat mit textbasierten Daten trainiert. Anschließend wird das FT-Modell gemeinsam mit dem RNN-T-Verlust optimiert. Beim Decodieren wird eine neue ILM-Fusionsstrategie vorgeschlagen, die den Blank-, Akustik- und ILM-Score effektiv kombiniert.
Die Experimente zeigen, dass dieser Ansatz eine 17%ige relative Verbesserung gegenüber der Standard-Decodierung erzielt, wenn ein gut trainiertes ILM und die vorgeschlagene Decodier-Strategie auf LibriSpeech-Datensätze angewendet werden. Im Vergleich zu einem starken RNN-T-Basismodell mit externer Sprachmodell-Fusion liefert das vorgeschlagene Modell eine 5,5%ige relative Verbesserung auf allgemeinen Testsets und eine 8,9%ige WER-Reduktion für seltene Wörter.
Um die Leistung weiter zu verbessern, wird eine neuartige und speichereffiziente ILM-Fusions-bewusste MWER-Trainingsmethode vorgeschlagen, die die Integration des ILM deutlich verbessert.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jinxi Guo,Ni... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01716.pdfYêu cầu sâu hơn