이 논문은 음성 감정 인식(SER)을 위한 새로운 딥 뉴럴 네트워크 기반 아키텍처인 TBDM-Net을 소개한다. 이 아키텍처는 다중 레이어의 양방향 희소 컨볼루션을 활용하여 시간 정보를 효과적으로 모델링한다. 또한 선형 커널을 사용하여 이러한 다중 레이어 표현을 동적으로 융합하여 최종 감정 클래스 예측을 수행한다.
논문에서는 6개의 널리 알려진 다국어 SER 데이터셋에 대해 TBDM-Net의 성능을 종합적으로 평가했다. 또한 성별 정보가 감정 분류 정확도에 미치는 영향을 분석했다. 실험 결과, TBDM-Net은 대부분의 데이터셋에서 기존 최신 방법들을 능가하는 성능을 보였다. 특히 EMOVO, RAVDESS, IEMOCAP 데이터셋에서 3% 이상의 절대 재현율 향상이 관찰되었다. 성별 정보를 활용할 경우 추가적인 성능 향상을 얻을 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문