이 연구에서는 음성 데이터의 음향 및 텍스트 기반 특징을 활용하여 감정 인식 성능을 향상시키는 다양한 융합 접근법을 제안하고 평가하였다.
주요 내용은 다음과 같다:
음성 데이터의 텍스트 정보를 표현하기 위해 BERT 기반의 문맥화된 단어 임베딩을 사용하였으며, 이를 통해 기존의 Glove 임베딩 대비 성능 향상을 확인하였다.
음향 및 텍스트 정보를 융합하는 다양한 전략(early fusion, late fusion)을 제안하고 비교 평가하였다. 융합 모델들은 개별 모델 대비 약 16% 향상된 성능을 보였다.
IEMOCAP 데이터셋에서 학습/테스트 데이터 분할 기준(화자 기반, 대본 기반)이 텍스트 기반 모델의 성능에 큰 영향을 미치는 것을 확인하였다. 이는 기존 연구들이 과도하게 낙관적인 성능을 보고했을 가능성을 시사한다.
이 연구 결과는 음성 데이터의 다중 모달리티 융합을 통해 감정 인식 성능을 향상시킬 수 있음을 보여준다. 또한 데이터셋 분할 기준의 중요성을 강조하여 향후 연구에 시사점을 제공한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Leonardo Pep... lúc arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18635.pdfYêu cầu sâu hơn