본 연구는 멜 주파수 켑스트럼 계수(MFCC)를 함수 데이터 모델로 처리하여 음성 감정 인식을 위한 새로운 심층 신경망 모델을 제안한다. 이를 통해 MFCC의 동적 특성과 계수 간 상호 의존성을 효과적으로 활용할 수 있다.
데이터셋 간 도메인 불일치가 스펙트럼 클러스터링 기반 화자 다이어리제이션 성능에 미치는 영향을 분석하였다. AMI와 DIHARD-III 데이터셋을 사용한 실험 결과, 도메인 불일치로 인해 최적 튜닝 파라미터 선택과 화자 수 추정에 차이가 발생함을 확인하였다.