Die Arbeit befasst sich mit nicht-autoregressiver automatischer Spracherkennung. Es wird eine unimodale Aggregation (UMA) vorgeschlagen, um die Merkmalsvektoren, die zum selben Texttoken gehören, zu segmentieren und zu integrieren, und so bessere Merkmalsrepräsentationen für Texttokens zu lernen.
Die Merkmale und Gewichte auf Frameebene werden aus einem Encoder abgeleitet. Dann werden die Merkmalsvektoren mit unimodalen Gewichten integriert und von einem Decoder weiter verarbeitet. Die Connectionist Temporal Classification (CTC) Verlustfunktion wird zum Training verwendet.
Im Vergleich zur regulären CTC lernt die vorgeschlagene Methode bessere Merkmalsrepräsentationen und verkürzt die Sequenzlänge, was zu einer geringeren Erkennungsfehlerhäufigkeit und geringerer Rechenaufwand führt. Experimente auf drei mandarin-chinesischen Datensätzen zeigen, dass UMA eine überlegene oder vergleichbare Leistung gegenüber anderen fortgeschrittenen nicht-autoregressiven Methoden wie der selbstbedingten CTC aufweist. Darüber hinaus kann die Leistung durch Integration der selbstbedingten CTC in den vorgeschlagenen Rahmen weiter deutlich verbessert werden.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Ying Fang,Xi... um arxiv.org 03-21-2024
https://arxiv.org/pdf/2309.08150.pdfTiefere Fragen