Core Concepts
nEMO는 폴란드어 감정 음성 데이터셋으로, 9명의 화자가 6가지 감정 상태(분노, 공포, 행복, 슬픔, 놀람, 중립)를 연기한 4,481개의 오디오 샘플로 구성되어 있다.
Abstract
이 논문은 폴란드어 감정 음성 데이터셋 nEMO의 개발과 평가에 대해 설명한다.
데이터셋 개발 방법:
6가지 기본 감정 상태(분노, 공포, 행복, 슬픔, 놀람, 중립) 선정
폴란드어 발음을 잘 반영하는 90개의 문장 선정
20-30세 사이의 9명의 화자(전문 성우 3명, 비전문 6명) 참여
고품질 녹음 장비와 환경을 사용하여 3시간 이상의 오디오 데이터 수집
데이터셋 평가:
SVM, 로지스틱 회귀, 랜덤 포레스트 등 3가지 기계학습 모델을 사용하여 평가
랜덤 포레스트 모델이 83.95%의 가장 높은 정확도 달성
감정 간 유사성으로 인한 오분류 발생, 특히 놀람 감정 인식에서 어려움
이 데이터셋은 폴란드어 감정 음성 인식 연구를 위한 중요한 자원이 될 것이며, 향후 추가 개발을 통해 다양성과 활용성을 높일 계획이다.
Stats
폴란드어 감정 음성 데이터셋 nEMO에는 총 4,481개의 오디오 샘플이 포함되어 있다.
감정 상태별 샘플 수는 다음과 같다:
분노: 749개
공포: 736개
행복: 749개
중립: 809개
슬픔: 769개
놀람: 669개
Quotes
"이 데이터셋은 폴란드어 감정 음성 인식 연구를 위한 중요한 자원이 될 것이며, 향후 추가 개발을 통해 다양성과 활용성을 높일 계획이다."