Die Studie präsentiert eine Erweiterung des zuvor vorgeschlagenen offline SpatialNet für die Mehrkanal-Sprachverbesserung in Echtzeit, sowohl für statische als auch für bewegte Sprecher.
Drei Varianten von Online-SpatialNet werden entwickelt, die auf den Netzwerken von maskierter Selbstaufmerksamkeit, Retention und Mamba basieren. Zusätzlich wird eine Strategie des Trainings mit kurzen Signalen gefolgt von Feinabstimmung mit langen Signalen vorgeschlagen, um die Extrapolationsfähigkeit der Netzwerke bei begrenzter Trainingszeit zu verbessern.
Die Ergebnisse zeigen, dass die Online-SpatialNet-Varianten, insbesondere Mamba, hervorragende Leistungen bei der Sprachverbesserung für lange Audioströme und sowohl für statische als auch für bewegte Sprecher erzielen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Changsheng Q... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07675.pdfDomande più approfondite