이 논문은 HuBERT 기반 음성 감정 인식 모델인 GMP-ATL을 제안한다. GMP-ATL은 다음의 3단계로 구성된다:
실험 결과, GMP-ATL은 IEMOCAP 데이터셋에서 기존 최신 기법들을 능가하는 우수한 성능을 보였다. 특히 프레임 단위 GMPs와 AM-Softmax 손실 함수가 핵심적인 역할을 하였다. 또한 HuBERT 모델의 3번째 마지막 레이어 특징이 감정 정보를 가장 잘 포착하는 것으로 나타났다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yu Pan,Yugua... klokken arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02151.pdfDypere Spørsmål