이 연구는 음성 신호 분리 문제에 대한 새로운 접근법인 WHYV(Wanna Hear Your Voice)를 제안한다. WHYV는 주파수 영역에서 작동하며, 참조 오디오와 혼합 오디오를 인코딩하여 화자 정보와 환경 정보를 추출한다. 이 정보는 Global Target Filter(GTF)와 Global Target Bias(GTB)로 변환되어 TF-Gridnet 블록에 적용된다. 게이팅 메커니즘을 통해 화자의 음향 특징에 따라 특정 주파수를 선택적으로 수정할 수 있다.
실험 결과, WHYV는 영어 음성에서 17.3544의 SI-SDR을 달성하고, Wham! 노이즈가 포함된 깨끗한 음성에서 13.2032의 SI-SDR을 달성하여 다른 모델들을 능가했다. 또한 WHYV는 추가 학습 없이 베트남어 데이터에서도 12.923의 SI-SDR을 달성하며 뛰어난 언어 간 전이 능력을 보였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania