본 논문은 음성 감정 인식(SER)의 주요 과제인 환경 잡음 문제를 해결하기 위해 두 단계 정제 네트워크(TRNet)를 제안한다.
첫째, 사전 학습된 음성 향상(SE) 모듈을 활용하여 잡음 제거와 신호 대 잡음비(SNR) 추정을 수행한다.
둘째, 깨끗한 음성 스펙트로그램과 해당 깊이 표현을 참조 신호로 활용하여 향상된 음성의 스펙트로그램 왜곡과 표현 편향을 정제한다.
저레벨 특징 보상과 고레벨 표현 보정을 통해 SE와 SER 모듈을 효과적으로 결합하여, 불확실한 잡음 환경에서의 강인성을 높이면서도 깨끗한 환경에서의 성능을 유지할 수 있다.
실험 결과, 제안한 TRNet이 기존 방법들에 비해 깨끗한 환경과 다양한 잡음 환경에서 모두 우수한 성능을 보였다. 또한 SNR 추정 계수와 깊이 표현의 특성 분석을 통해 TRNet의 효과를 입증하였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies