Die Verwendung von Pseudo-Etiketten für große Mengen öffentlich verfügbarer Daten führt zu bemerkenswerten Verbesserungen der Wortfehlerrate und erhöht die Robustheit des Spracherkennungsmodells Conformer-1 gegenüber Hintergrundgeräuschen.
Echo-MSA, ein variables Aufmerksamkeitsmechanismus, der Sprachmerkmale auf mehreren Ebenen extrahiert und die Modellierung von Sprachsignalen mit unterschiedlicher Länge verbessert, führt zu einer höheren Stabilität und Genauigkeit der Spracherkennung.
Transducer-Modelle mit aussprachebasierten Einbettungen (PET) können die Genauigkeit der automatischen Spracherkennung im Vergleich zu herkömmlichen Transducer-Modellen konsistent verbessern, indem sie die Wahrscheinlichkeit von Fehlerkettenreaktionen reduzieren.
Ein neuartiger Trainings- und Decodier-Ansatz für faktorisierte Transducer-Modelle, der den Blank-, Akustik- und internen Sprachmodell-Score effektiv kombiniert, führt zu einer erheblichen Leistungssteigerung ohne Verwendung eines externen Sprachmodells.
Eine unimodale Aggregation (UMA) wird vorgeschlagen, um Merkmalsvektoren, die zum selben Texttoken gehören, zu segmentieren und zu integrieren, um bessere Merkmalsrepräsentationen für Texttokens zu lernen.
TDT-KWS, ein Keyword-Spotting-System, das auf Token-und-Dauer-Transducern basiert, erzielt vergleichbare oder bessere Leistung als herkömmliche RNN-T-Systeme, bei gleichzeitig deutlich höherer Inferenzgeschwindigkeit. Das System zeigt auch eine größere Robustheit gegenüber Rauschen.
Der Artikel präsentiert zwei neuartige Ansätze, LongFNT und SLongFNT, die lange Inhaltsinformationen in die Architektur des faktorisierten neuronalen Transducers (FNT) integrieren, um die Leistung von nicht-streaming- und streaming-Spracherkennungssystemen zu verbessern.
Durch eine minimale Erweiterung des Baseline-Sprachmodells mit Unigram-Zählungen von Wörtern, die im größeren Textkorpus, aber nicht im Baseline-Korpus vorhanden sind, können die erzeugten Gitter effektiver mit einem größeren Sprachmodell nachskaliert werden, was zu einer signifikanten Verbesserung der Spracherkennungsgenauigkeit führt.
Wir stellen einen umfassenden Benchmark namens "Speech Robust Bench" vor, der es ermöglicht, die Robustheit von Spracherkennungsmodellen gegenüber verschiedensten Verzerrungen und Angriffen systematisch zu evaluieren und zu vergleichen.
Das Ziel ist es, die Leistung von End-to-End-Automatic-Speech-Recognition-Modellen zu verbessern, indem die Transformer-Schichten auf die Sprachkennung der Wörter und Zeichen in der Ausgabe in einer pro Schicht überwachten Art und Weise konditioniert werden.