In dieser Arbeit wird eine Modifikation von RNN-Transducer (RNN-T)-Modellen für die automatische Spracherkennung (ASR) vorgeschlagen. Im Gegensatz zu Standard-RNN-T-Modellen, die nur ein einziges Leerzeichensymbol verwenden, führen die Autoren zusätzliche Leerzeichensymbole ein, die zwei oder mehr Eingabeframes überspringen können, wenn sie ausgegeben werden. Diese zusätzlichen "großen Leerzeichensymbole" werden als "Multi-Blank RNN-T" bezeichnet.
Für das Training von Multi-Blank RNN-T-Modellen schlagen die Autoren eine neuartige Methode der Logit-Unternormalisierung vor, um die Ausgabe der großen Leerzeichensymbole zu priorisieren. Experimente auf mehreren Sprachen und Datensätzen zeigen, dass Multi-Blank RNN-T-Methoden die Inferenzgeschwindigkeit um über 90% für Englisch (Librispeech) und 139% für Deutsch (Multilingual Librispeech) beschleunigen können, während gleichzeitig die ASR-Genauigkeit verbessert wird.
Die Autoren erklären, dass die Ausgabe von Leerzeichensymbolen in Standard-RNN-T-Modellen oft die Inferenzzeit dominiert, da die Modelle mehr Leerzeichensymbole als tatsächliche Tokens ausgeben. Die Einführung der großen Leerzeichensymbole ermöglicht es den Modellen, mehrere Frames auf einmal zu überspringen, was zu einer deutlichen Beschleunigung der Inferenz führt.
Darüber hinaus zeigen die Experimente, dass die vorgeschlagene Logit-Unternormalisierung während des Trainings entscheidend ist, um die Ausgabe der großen Leerzeichensymbole zu priorisieren und so die maximalen Geschwindigkeitsvorteile zu erzielen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Hainan Xu,Fe... klokken arxiv.org 04-15-2024
https://arxiv.org/pdf/2211.03541.pdfDypere Spørsmål