核心概念
HuBERT 기반 성별 증강 다중 스케일 의사 레이블 적응형 전이 학습 기법을 통해 음성 감정 인식 성능을 크게 향상시킬 수 있다.
摘要
이 논문은 HuBERT 기반 음성 감정 인식 모델인 GMP-ATL을 제안한다. GMP-ATL은 다음의 3단계로 구성된다:
- 다중 작업 학습과 다중 스케일 k-means 클러스터링을 통해 프레임 단위 성별 증강 의사 레이블(GMPs)을 획득한다.
- 획득한 GMPs를 활용하여 HuBERT 기반 모델을 재학습한다.
- 화자 단위 감정 레이블을 활용하여 AM-Softmax 손실 함수로 모델을 미세 조정한다.
실험 결과, GMP-ATL은 IEMOCAP 데이터셋에서 기존 최신 기법들을 능가하는 우수한 성능을 보였다. 특히 프레임 단위 GMPs와 AM-Softmax 손실 함수가 핵심적인 역할을 하였다. 또한 HuBERT 모델의 3번째 마지막 레이어 특징이 감정 정보를 가장 잘 포착하는 것으로 나타났다.
統計資料
화자 독립 환경에서 IEMOCAP 데이터셋에 대한 GMP-ATL의 가중 평균 재현율(WAR)은 80.0%이다.
화자 독립 환경에서 IEMOCAP 데이터셋에 대한 GMP-ATL의 비가중 평균 재현율(UAR)은 82.0%이다.
引述
"HuBERT 기반 성별 증강 다중 스케일 의사 레이블 적응형 전이 학습을 통해 음성 감정 인식 성능을 크게 향상시킬 수 있다."
"프레임 단위 GMPs와 AM-Softmax 손실 함수가 핵심적인 역할을 하였다."
"HuBERT 모델의 3번째 마지막 레이어 특징이 감정 정보를 가장 잘 포착하는 것으로 나타났다."