Conceitos Básicos
Conformer 기반 Metric GAN을 사용하여 음성 향상 기술 소개
Resumo
Conformer은 음성 신호의 지역 및 전역 종속성을 캡처하여 ASR 및 SE에서 유망한 성능을 보임
CMGAN은 TF 도메인에서 음성 향상을 위해 제안되었으며, 복소 스펙트로그램 정보를 모델링하여 향상된 음성 재구성
Metric 판별자를 사용하여 CMGAN의 성능을 향상시키고 Voice Bank+DEMAND 데이터셋에서 다양한 이전 모델을 능가
CMGAN은 PESQ 3.41 및 SSNR 11.10 dB로 성능을 입증
제안된 방법은 3가지 측면에서 기여하며, Voice Bank+DEMAND 데이터셋에서 효과적인 설계 선택의 효과를 검증
Estatísticas
CMGAN은 Voice Bank+DEMAND 데이터셋에서 PESQ 3.41 및 SSNR 11.10 dB로 성능 향상을 보임
Citações
"Conformer은 ASR 및 음성 분리 작업에서 지역 컨텍스트와 전역 컨텍스트를 모두 캡처할 수 있는 능력 때문에 사용됨."
"CMGAN은 Metric 판별자를 활용하여 음성 향상 평가 점수를 최적화하여 향상된 추정 음성의 품질을 더욱 향상시킴."