In dieser Arbeit wird eine Modifikation von RNN-Transducer (RNN-T)-Modellen für die automatische Spracherkennung (ASR) vorgeschlagen. Im Gegensatz zu Standard-RNN-T-Modellen, die nur ein einziges Leerzeichensymbol verwenden, führen die Autoren zusätzliche Leerzeichensymbole ein, die zwei oder mehr Eingabeframes überspringen können, wenn sie ausgegeben werden. Diese zusätzlichen "großen Leerzeichensymbole" werden als "Multi-Blank RNN-T" bezeichnet.
Für das Training von Multi-Blank RNN-T-Modellen schlagen die Autoren eine neuartige Methode der Logit-Unternormalisierung vor, um die Ausgabe der großen Leerzeichensymbole zu priorisieren. Experimente auf mehreren Sprachen und Datensätzen zeigen, dass Multi-Blank RNN-T-Methoden die Inferenzgeschwindigkeit um über 90% für Englisch (Librispeech) und 139% für Deutsch (Multilingual Librispeech) beschleunigen können, während gleichzeitig die ASR-Genauigkeit verbessert wird.
Die Autoren erklären, dass die Ausgabe von Leerzeichensymbolen in Standard-RNN-T-Modellen oft die Inferenzzeit dominiert, da die Modelle mehr Leerzeichensymbole als tatsächliche Tokens ausgeben. Die Einführung der großen Leerzeichensymbole ermöglicht es den Modellen, mehrere Frames auf einmal zu überspringen, was zu einer deutlichen Beschleunigung der Inferenz führt.
Darüber hinaus zeigen die Experimente, dass die vorgeschlagene Logit-Unternormalisierung während des Trainings entscheidend ist, um die Ausgabe der großen Leerzeichensymbole zu priorisieren und so die maximalen Geschwindigkeitsvorteile zu erzielen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hainan Xu,Fe... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2211.03541.pdfDeeper Inquiries