核心概念
본 연구는 멜 주파수 켑스트럼 계수(MFCC)를 함수 데이터 모델로 처리하여 음성 감정 인식을 위한 새로운 심층 신경망 모델을 제안한다. 이를 통해 MFCC의 동적 특성과 계수 간 상호 의존성을 효과적으로 활용할 수 있다.
摘要
본 연구는 음성 감정 인식을 위한 새로운 접근법을 제안한다. 기존에는 MFCC를 단순한 특징 벡터로 사용했지만, 본 연구에서는 MFCC를 함수 데이터 모델로 처리한다. 이를 위해 다음과 같은 방법을 사용한다:
- MFCC를 시간에 따른 함수로 표현하여 음성 신호의 동적 특성을 고려한다.
- 다변량 함수 데이터 객체를 생성하여 다른 길이의 음성 샘플 간 비교가 가능하도록 한다.
- 다중 지수 모델을 사용하여 MFCC 계수 간 상호 의존성을 모델링한다.
- 심층 신경망 구조를 활용하여 적응형 기저 함수와 자동 데이터 변환을 학습한다.
이러한 접근법을 통해 기존 방법보다 향상된 음성 감정 인식 성능을 보였다. IEMOCAP 데이터셋에 대한 실험 결과, 제안 모델은 기존 방법과 비교하여 좋은 성능을 보였다.
统计
MFCC는 시간에 따른 함수로 표현할 수 있으며, 이를 통해 음성 신호의 동적 특성을 고려할 수 있다.
다변량 함수 데이터 객체를 생성하면 다른 길이의 음성 샘플 간 비교가 가능하다.
다중 지수 모델을 사용하면 MFCC 계수 간 상호 의존성을 효과적으로 모델링할 수 있다.
引用
"본 연구는 멜 주파수 켑스트럼 계수(MFCC)를 함수 데이터 모델로 처리하여 음성 감정 인식을 위한 새로운 심층 신경망 모델을 제안한다."
"이를 통해 MFCC의 동적 특성과 계수 간 상호 의존성을 효과적으로 활용할 수 있다."