Der Artikel untersucht zunächst, ob lange Inhaltstranskriptionen die Leistung von Conformer-Transducer-Modellen verbessern können. Die Experimente zeigen, dass dies nicht der Fall ist, da das Prädiktornetzwerk des Conformer-Transducers nicht als reines Sprachmodell fungiert. Stattdessen zeigt der FNT-Ansatz sein Potenzial zur Nutzung von Langzeitinformationen.
Basierend auf FNT schlagen die Autoren zwei Ansätze vor: LongFNT-Text und LongFNT-Speech. LongFNT-Text integriert lange Textinformationen auf Satz- und Tokenebene in den Vokabularprediktor. LongFNT-Speech erweitert den Encoder, um lange Sprachinformationen zu nutzen. Die Kombination dieser beiden Ansätze ergibt das finale LongFNT-Modell.
Darüber hinaus erweitern die Autoren LongFNT zum Streaming-Szenario und präsentieren SLongFNT-Text und SLongFNT-Speech. SLongFNT-Text verwendet LSTM als Vokabularprediktor-Rückgrat und traditionelle Aufmerksamkeit, um Langzeitinformationen auf Tokenebene zu integrieren. SLongFNT-Speech verwendet eine chunk-basierte Aufmerksamkeit, um lange Sprachinformationen effizient zu nutzen.
Die Experimente zeigen, dass die vorgeschlagenen LongFNT- und SLongFNT-Modelle im Vergleich zu den Basislinien erhebliche Verbesserungen der Erkennungsgenauigkeit erzielen, während die Latenz im Streaming-Szenario gering bleibt.
翻譯成其他語言
從原文內容
arxiv.org
深入探究