이 연구는 음성 감정 인식(SER)을 위한 DARTS 최적화 CNN-SeqNN 모델인 "emoDARTS"를 제안한다. 기존 연구에서는 CNN과 LSTM 구조를 독립적으로 최적화했지만, 본 연구에서는 CNN과 SeqNN 구조를 함께 최적화하는 새로운 방법을 제안한다. 또한 CNN 구조 내 층 순서에 제한을 두지 않고 DARTS가 자율적으로 결정하도록 하였다.
실험 결과, emoDARTS는 사람이 설계한 CNN-LSTM 모델보다 우수한 성능을 보였으며, DARTS를 활용한 기존 최고 SER 결과를 넘어섰다. IEMOCAP, MSP-IMPROV, MSP-Podcast 데이터셋에서 평가한 결과, emoDARTS는 일반화 능력이 뛰어난 것으로 나타났다.
연구 과정에서 GPU 메모리 사용량 최적화, 지역 최소값 수렴, 결과의 높은 표준편차 등의 과제를 해결하기 위한 전략을 제시하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Thejan Rajap... a las arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14083.pdfConsultas más profundas