Kernkonzepte
DTTNet, ein neuartiges und leichtgewichtiges Framework, erreicht eine höhere cSDR für die 'Vocals'- und 'Other'-Spur der Musikquellentrennung bei gleichzeitiger Reduzierung der Parameteranzahl im Vergleich zu BSRNN und TFC-TDF UNet v3.
Zusammenfassung
In dieser Arbeit wird ein neuartiges und leichtgewichtiges Framework namens DTTNet vorgestellt, das auf dem Dual-Path-Modul und dem TFC-TDF UNet v3 basiert. Die Hauptbeiträge sind:
- Durch die Integration und Optimierung des Encoders und Decoders aus TFC-TDF UNet v3 und des latenten Dual-Path-Moduls aus BSRNN werden redundante Parameter reduziert.
- Durch die Aufteilung der Kanäle innerhalb des verbesserten Dual-Path-Moduls wird die Inferenzzeit reduziert.
- Die Hyperparameter innerhalb von DTTNet wurden optimiert, um das Signal-to-Distortion-Ratio (SDR) zu verbessern, das mit BSRNN und TFC-TDF UNet v3 vergleichbar ist.
- DTTNet wurde auf komplexen Audiomustern getestet, die von vielen Modellen, die auf dem MUSDB18-HQ-Datensatz trainiert wurden, oft falsch klassifiziert werden.
Die Ergebnisse zeigen, dass DTTNet eine höhere cSDR für die 'Vocals'-Spur im Vergleich zu BSRNN (dem aktuellen Stand der Technik) bei nur 13,3% seiner Parameteranzahl erreicht. Darüber hinaus wurde eine höhere cSDR für die 'Other'-Spur im Vergleich zu TFC-TDF UNet v3 (dem aktuellen Stand der Technik) bei nur 28,6% seiner Parameteranzahl erzielt.
Darüber hinaus wurde ein bespoke Datensatz mit komplexen Audiomustern erstellt, um die Verallgemeinerungsfähigkeit von DTTNet zu testen. Die Ergebnisse zeigen, dass die Feinabstimmung von DTTNet unter Berücksichtigung des Vocal Chops-Musters die Leistung auf allen Mustern deutlich verbessert.
Statistiken
DTTNet erreicht 10,12 dB cSDR auf 'Vocals' im Vergleich zu 10,01 dB, die für BSRNN berichtet wurden, aber mit 86,7% weniger Parametern.
Zitate
"DTTNet, ein neuartiges und leichtgewichtiges Framework, erreicht eine höhere cSDR für die 'Vocals'- und 'Other'-Spur der Musikquellentrennung bei gleichzeitiger Reduzierung der Parameteranzahl im Vergleich zu BSRNN und TFC-TDF UNet v3."
"Die Feinabstimmung von DTTNet unter Berücksichtigung des Vocal Chops-Musters verbessert die Leistung auf allen Mustern deutlich."