Die Studie präsentiert ein neuartiges und leichtgewichtiges Framework namens DTTNet für die Musikquellentrennung. DTTNet kombiniert den Encoder und Decoder aus TFC-TDF UNet v3 mit einem verbesserten Dual-Path-Modul, um redundante Parameter zu reduzieren. Durch die Aufteilung der Kanäle innerhalb des Dual-Path-Moduls wird auch die Inferenzzeit verringert.
Die Autoren optimieren die Hyperparameter von DTTNet und erreichen vergleichbare Signal-to-Distortion-Ratios (SDRs) wie BSRNN und TFC-TDF UNet v3. Darüber hinaus testen sie DTTNet auf einem eigens erstellten Datensatz mit komplexen Audiomustern, um die Generalisierungsfähigkeit zu untersuchen.
Die Ergebnisse zeigen, dass DTTNet eine höhere chunk-basierte SDR (cSDR) für die "Vocals"- und "Other"-Spuren erreicht als die aktuellen Spitzenmodelle, bei gleichzeitig deutlich reduzierter Parameteranzahl. Durch feines Abstimmen auf den Vocal-Chops-Datensatz kann die Leistung auf allen Mustern weiter verbessert werden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Junyu Chen,S... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2309.08684.pdfConsultas más profundas