이 논문에서는 음원 분리를 위한 새로운 경량 딥러닝 프레임워크인 DTTNet을 소개한다. DTTNet은 TFC-TDF UNet v3의 인코더와 디코더, BSRNN의 잠재 이중 경로 모듈을 통합하여 구성되었다.
인코더와 디코더는 스킵 연결을 통해 연결되며, 각 레이어에는 TFC-TDF v3 블록이 사용된다. 잠재 부분은 TFC-TDF v3 블록과 개선된 이중 경로 모듈(IDPM)로 구성된다. IDPM은 입력 채널을 여러 개의 헤드로 분할하여 시간 및 주파수 축을 따라 처리함으로써 추론 시간을 단축한다.
실험 결과, DTTNet은 BSRNN 대비 86.7% 적은 매개변수로 'vocals' 트랙에서 더 높은 cSDR을 달성했다. 또한 TFC-TDF UNet v3 대비 71.4% 적은 매개변수로 'other' 트랙에서 더 높은 cSDR을 달성했다.
추가로, 복잡한 오디오 패턴으로 구성된 별도의 데이터셋을 활용하여 DTTNet의 일반화 능력을 평가했다. 실험 결과, 복잡한 패턴에 대해서도 우수한 성능을 보였으며, 특히 보컬 초퍼 패턴에 대해서는 미세 조정을 통해 성능이 크게 향상되었다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Junyu Chen,S... às arxiv.org 03-20-2024
https://arxiv.org/pdf/2309.08684.pdfPerguntas Mais Profundas