Effiziente Spracherkennung für lange Inhalte mit faktorisiertem neuronalen Transducer
Der Artikel präsentiert zwei neuartige Ansätze, LongFNT und SLongFNT, die lange Inhaltsinformationen in die Architektur des faktorisierten neuronalen Transducers (FNT) integrieren, um die Leistung von nicht-streaming- und streaming-Spracherkennungssystemen zu verbessern.