Die Arbeit befasst sich mit nicht-autoregressiver automatischer Spracherkennung. Es wird eine unimodale Aggregation (UMA) vorgeschlagen, um die Merkmalsvektoren, die zum selben Texttoken gehören, zu segmentieren und zu integrieren, und so bessere Merkmalsrepräsentationen für Texttokens zu lernen.
Die Merkmale und Gewichte auf Frameebene werden aus einem Encoder abgeleitet. Dann werden die Merkmalsvektoren mit unimodalen Gewichten integriert und von einem Decoder weiter verarbeitet. Die Connectionist Temporal Classification (CTC) Verlustfunktion wird zum Training verwendet.
Im Vergleich zur regulären CTC lernt die vorgeschlagene Methode bessere Merkmalsrepräsentationen und verkürzt die Sequenzlänge, was zu einer geringeren Erkennungsfehlerhäufigkeit und geringerer Rechenaufwand führt. Experimente auf drei mandarin-chinesischen Datensätzen zeigen, dass UMA eine überlegene oder vergleichbare Leistung gegenüber anderen fortgeschrittenen nicht-autoregressiven Methoden wie der selbstbedingten CTC aufweist. Darüber hinaus kann die Leistung durch Integration der selbstbedingten CTC in den vorgeschlagenen Rahmen weiter deutlich verbessert werden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Ying Fang,Xi... a las arxiv.org 03-21-2024
https://arxiv.org/pdf/2309.08150.pdfConsultas más profundas