Dual-Pfad Mamba: Kurzfristige und langfristige bidirektionale selektive strukturierte Zustandsraummodelle für die Sprachentrennung
Dual-Pfad Mamba ist ein neues Modell für die Sprachentrennung, das eine Dual-Pfad-Architektur nutzt, um lokale und globale Aspekte von Sprachsequenzen zu modellieren, und bidirektionale Mamba-Blöcke zur Verarbeitung der Sequenzen in Vorwärts- und Rückwärtsrichtung einbezieht. Die Modelle in verschiedenen Größen übertreffen die Leistung bestehender CNN-, RNN- und Transformer-Modelle ähnlicher oder größerer Größe und setzen einen neuen Benchmark auf dem WSJ0-2mix-Datensatz.