핵심 개념
감정 인식을 위해 효과적인 전처리 방법과 효율적인 채널 주의 기법을 적용한 CNN 기반 모델을 제안하였다.
초록
이 연구에서는 음성 감정 인식(SER) 문제에 대해 효과적인 전처리 방법과 효율적인 채널 주의 기법을 적용한 CNN 기반 모델을 제안하였다.
먼저, 다양한 주파수-시간 해상도의 8가지 데이터셋 버전을 사용하여 감정 음성 전처리를 위한 효과적인 방법을 탐색하였다. 그 결과, 상대적으로 높은 주파수 해상도를 가진 log-Mel 스펙트로그램 전처리가 감정 인식 성능 향상에 효과적인 것으로 나타났다.
또한 6층 구조의 CNN 모델에 효율적인 채널 주의 기법(ECA)을 적용하여 채널 특징 표현을 효과적으로 향상시켰다. 특히 깊은 컨볼루션 층 이후에 ECA 블록을 배치하는 것이 효과적이었다. 이를 통해 기존 SER 모델들을 능가하는 최고의 결과(79.37UA 79.68WA)를 달성할 수 있었다.
더 나아가, 감정 음성 데이터의 부족 문제를 해결하기 위해 다양한 전처리 설정을 활용한 STFT 데이터 증강 기법을 제안하였다. 실험 결과, 이 방법을 통해 최고의 성능(80.28UA 80.46WA 80.37ACC)을 달성할 수 있었다.
통계
감정 음성 데이터의 부족으로 인한 과적합 문제를 해결하기 위해 다양한 전처리 설정을 활용한 STFT 데이터 증강 기법을 제안하였다.
인용구
"감정 인식을 위해 효과적인 전처리 방법과 효율적인 채널 주의 기법을 적용한 CNN 기반 모델을 제안하였다."
"상대적으로 높은 주파수 해상도를 가진 log-Mel 스펙트로그램 전처리가 감정 인식 성능 향상에 효과적이었다."
"깊은 컨볼루션 층 이후에 ECA 블록을 배치하는 것이 효과적이었다."