Spracherkennung

Anmelden

Einblick - Spracherkennung

Conformer-1: Robuste Spracherkennung durch großangelegte halbüberwachte Bootstrapping-Methoden

Die Verwendung von Pseudo-Etiketten für große Mengen öffentlich verfügbarer Daten führt zu bemerkenswerten Verbesserungen der Wortfehlerrate und erhöht die Robustheit des Spracherkennungsmodells Conformer-1 gegenüber Hintergrundgeräuschen.

Echotune: Ein modularer Extraktor, der die variable Länge von Sprache in ASR-Aufgaben nutzt

Echo-MSA, ein variables Aufmerksamkeitsmechanismus, der Sprachmerkmale auf mehreren Ebenen extrahiert und die Modellierung von Sprachsignalen mit unterschiedlicher Länge verbessert, führt zu einer höheren Stabilität und Genauigkeit der Spracherkennung.

Transducer-Modelle mit aussprachebasierten Einbettungen für die automatische Spracherkennung

Transducer-Modelle mit aussprachebasierten Einbettungen (PET) können die Genauigkeit der automatischen Spracherkennung im Vergleich zu herkömmlichen Transducer-Modellen konsistent verbessern, indem sie die Wahrscheinlichkeit von Fehlerkettenreaktionen reduzieren.

Effizientes Training und Fusion des internen Sprachmodells für ein faktorisiertes Transducer-Modell

Ein neuartiger Trainings- und Decodier-Ansatz für faktorisierte Transducer-Modelle, der den Blank-, Akustik- und internen Sprachmodell-Score effektiv kombiniert, führt zu einer erheblichen Leistungssteigerung ohne Verwendung eines externen Sprachmodells.

Explizite Segmentierung und Integration von Sprachmerkmalen für nicht-autoregressive Spracherkennung

Eine unimodale Aggregation (UMA) wird vorgeschlagen, um Merkmalsvektoren, die zum selben Texttoken gehören, zu segmentieren und zu integrieren, um bessere Merkmalsrepräsentationen für Texttokens zu lernen.

Effizientes und genaues Keyword-Spotting mit Token-und-Dauer-Transducer

TDT-KWS, ein Keyword-Spotting-System, das auf Token-und-Dauer-Transducern basiert, erzielt vergleichbare oder bessere Leistung als herkömmliche RNN-T-Systeme, bei gleichzeitig deutlich höherer Inferenzgeschwindigkeit. Das System zeigt auch eine größere Robustheit gegenüber Rauschen.

Effiziente Spracherkennung für lange Inhalte mit faktorisiertem neuronalen Transducer

Der Artikel präsentiert zwei neuartige Ansätze, LongFNT und SLongFNT, die lange Inhaltsinformationen in die Architektur des faktorisierten neuronalen Transducers (FNT) integrieren, um die Leistung von nicht-streaming- und streaming-Spracherkennungssystemen zu verbessern.

Effiziente Verbesserung der Spracherkennung in Ressourcen-armen Sprachen durch minimale Erweiterung des Sprachmodells

Durch eine minimale Erweiterung des Baseline-Sprachmodells mit Unigram-Zählungen von Wörtern, die im größeren Textkorpus, aber nicht im Baseline-Korpus vorhanden sind, können die erzeugten Gitter effektiver mit einem größeren Sprachmodell nachskaliert werden, was zu einer signifikanten Verbesserung der Spracherkennungsgenauigkeit führt.

Ein umfassender Benchmark zur Bewertung der Robustheit von Spracherkennungsmodellen

Wir stellen einen umfassenden Benchmark namens "Speech Robust Bench" vor, der es ermöglicht, die Robustheit von Spracherkennungsmodellen gegenüber verschiedensten Verzerrungen und Angriffen systematisch zu evaluieren und zu vergleichen.

Erkennung von Gujarati-Englisch-Code-Switching-Sprache mit Ensemble-Vorhersage der gesprochenen Sprache

Das Ziel ist es, die Leistung von End-to-End-Automatic-Speech-Recognition-Modellen zu verbessern, indem die Transformer-Schichten auf die Sprachkennung der Wörter und Zeichen in der Ausgabe in einer pro Schicht überwachten Art und Weise konditioniert werden.

Über

Produkte

Ressourcen