본 연구는 음성 신호에서 언어적 및 운율적 감정 표현을 효과적으로 학습하기 위해 교차 모달 지식 증류 기법을 활용한다. 이를 통해 음성 입력만으로도 우수한 감정 인식 성능을 달성할 수 있다.
본 논문에서는 시간-주파수 상관관계 분석과 지식 전달을 통한 위치 정보 학습을 통해 음성 감정 인식 정확도를 향상시키는 방법을 제안한다.
본 논문은 일반적인 대규모 사전 학습 모델을 음성 감정 인식 작업에 맞춰 최적화하여 효과적이고 간단한 사전 학습 모델 Vesper를 제안한다.
감정 인식을 위해 효과적인 전처리 방법과 효율적인 채널 주의 기법을 적용한 CNN 기반 모델을 제안하였다.
다양한 감각 자극에 따른 감정 레이블이 음성 감정 인식 시스템 성능에 미치는 영향을 분석하였다.
인간 음성 잡음 환경에서 타깃 화자 추출 기법과 음성 감정 인식 모델을 결합한 2단계 프레임워크를 제안하여 음성 감정 인식 성능을 향상시킴.