이 연구에서는 음성 데이터의 음향 및 텍스트 기반 특징을 활용하여 감정 인식 성능을 향상시키는 다양한 융합 접근법을 제안하고 평가하였다.
주요 내용은 다음과 같다:
음성 데이터의 텍스트 정보를 표현하기 위해 BERT 기반의 문맥화된 단어 임베딩을 사용하였으며, 이를 통해 기존의 Glove 임베딩 대비 성능 향상을 확인하였다.
음향 및 텍스트 정보를 융합하는 다양한 전략(early fusion, late fusion)을 제안하고 비교 평가하였다. 융합 모델들은 개별 모델 대비 약 16% 향상된 성능을 보였다.
IEMOCAP 데이터셋에서 학습/테스트 데이터 분할 기준(화자 기반, 대본 기반)이 텍스트 기반 모델의 성능에 큰 영향을 미치는 것을 확인하였다. 이는 기존 연구들이 과도하게 낙관적인 성능을 보고했을 가능성을 시사한다.
이 연구 결과는 음성 데이터의 다중 모달리티 융합을 통해 감정 인식 성능을 향상시킬 수 있음을 보여준다. 또한 데이터셋 분할 기준의 중요성을 강조하여 향후 연구에 시사점을 제공한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询