Die Studie präsentiert ein neuartiges und leichtgewichtiges Framework namens DTTNet für die Musikquellentrennung. DTTNet kombiniert den Encoder und Decoder aus TFC-TDF UNet v3 mit einem verbesserten Dual-Path-Modul, um redundante Parameter zu reduzieren. Durch die Aufteilung der Kanäle innerhalb des Dual-Path-Moduls wird auch die Inferenzzeit verringert.
Die Autoren optimieren die Hyperparameter von DTTNet und erreichen vergleichbare Signal-to-Distortion-Ratios (SDRs) wie BSRNN und TFC-TDF UNet v3. Darüber hinaus testen sie DTTNet auf einem eigens erstellten Datensatz mit komplexen Audiomustern, um die Generalisierungsfähigkeit zu untersuchen.
Die Ergebnisse zeigen, dass DTTNet eine höhere chunk-basierte SDR (cSDR) für die "Vocals"- und "Other"-Spuren erreicht als die aktuellen Spitzenmodelle, bei gleichzeitig deutlich reduzierter Parameteranzahl. Durch feines Abstimmen auf den Vocal-Chops-Datensatz kann die Leistung auf allen Mustern weiter verbessert werden.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Junyu Chen,S... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2309.08684.pdfYêu cầu sâu hơn