Die Studie präsentiert eine Erweiterung des zuvor vorgeschlagenen offline SpatialNet für die Mehrkanal-Sprachverbesserung in Echtzeit, sowohl für statische als auch für bewegte Sprecher.
Drei Varianten von Online-SpatialNet werden entwickelt, die auf den Netzwerken von maskierter Selbstaufmerksamkeit, Retention und Mamba basieren. Zusätzlich wird eine Strategie des Trainings mit kurzen Signalen gefolgt von Feinabstimmung mit langen Signalen vorgeschlagen, um die Extrapolationsfähigkeit der Netzwerke bei begrenzter Trainingszeit zu verbessern.
Die Ergebnisse zeigen, dass die Online-SpatialNet-Varianten, insbesondere Mamba, hervorragende Leistungen bei der Sprachverbesserung für lange Audioströme und sowohl für statische als auch für bewegte Sprecher erzielen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Changsheng Q... at arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07675.pdfDeeper Inquiries