핵심 개념
개인화된 음성 향상을 위해 DeepFilterNet2 모델을 개선하여 경량화하고 성능을 향상시킴
초록
이 논문은 개인화된 음성 향상(PSE) 작업을 위해 DeepFilterNet2라는 경량 이중 단계 프레임워크를 개선하는 방법을 제안합니다.
스피커 인코더(ECAPA-TDNN)를 사용하여 타겟 화자의 음성 정보를 인코딩하고, 이를 DeepFilterNet2 모델에 통합하는 방법을 탐구합니다.
임베딩을 모델의 다양한 위치에 통합하는 방법을 비교하여, 최적의 통합 방법을 찾습니다. 통합된 인코더와 이중 인코더 아키텍처를 제안합니다.
제안된 개인화 방법을 통해 DeepFilterNet2의 성능이 크게 향상되었으며, 계산 복잡도는 최소한으로 유지되었음을 보여줍니다.
합성 테스트 세트와 DNS5 블라인드 테스트 세트에서 실험을 수행하여, 제안 모델의 우수한 성능을 입증합니다.
제안 모델은 기존 대형 PSE 모델에 비해 계산 복잡도가 크게 낮아, 임베디드 디바이스에서 실시간 PSE 구현에 적합합니다.
통계
노이즈가 있는 환경에서 제안 모델(pDeepFilterNet2)은 기존 DeepFilterNet2 모델보다 PESQ 점수가 0.26점 더 높았습니다.
제안 모델의 파라미터 수는 2.31M개, MAC은 0.33G, RTF는 0.03으로, 기존 DeepFilterNet2와 동일한 수준의 경량화를 유지했습니다.
인용구
"개인화된 음성 향상(PSE)은 관심 화자의 음성을 잡음 환경에서 추출하는 데 도움이 됩니다."
"최근 연구에서 PSE 모델이 우수한 성능을 보였지만, 계산 집약적인 아키텍처로 인해 리소스 제한 임베디드 디바이스에 적합하지 않습니다."
"제안 방법을 통해 DeepFilterNet2의 성능을 크게 향상시키면서도 계산 복잡도는 최소한으로 유지할 수 있었습니다."