Explizite Segmentierung und Integration von Sprachmerkmalen für nicht-autoregressive Spracherkennung
Eine unimodale Aggregation (UMA) wird vorgeschlagen, um Merkmalsvektoren, die zum selben Texttoken gehören, zu segmentieren und zu integrieren, um bessere Merkmalsrepräsentationen für Texttokens zu lernen.