Ein effizientes "Skip-and-Recover"-Verfahren für die Spracherkennung
Das vorgeschlagene "Skipformer"-Modell nutzt eine zwischengeschaltete CTC-Ausgabe, um Eingabeframes in drei Gruppen einzuteilen: wichtige Frames, überspringbare Frames und zu ignorierende Frames. Nur die wichtigen Frames werden vollständig durch den Encoder verarbeitet, während die überspringbaren Frames übersprungen und die zu ignorierenden Frames direkt verworfen werden. Dadurch kann die Eingabesequenzlänge deutlich reduziert und die Erkennungsgenauigkeit sowie die Inferenzgeschwindigkeit verbessert werden.