Effiziente Audio-Visuelle Sprachentrennung durch rekurrente Zeit-Frequenz-Modellierung
Ein neuartiges Zeit-Frequenz-Domänen-Verfahren zur Audio-Visuellen Sprachentrennung, das die Zeit- und Frequenzdimensionen unabhängig modelliert und effizient multimodale Informationen fusioniert, um eine hochwertige Sprachentrennung bei geringem Rechenaufwand zu erreichen.