이 연구는 음성 감정 인식(SER)을 위한 DARTS 최적화 CNN-SeqNN 모델인 "emoDARTS"를 제안한다. 기존 연구에서는 CNN과 LSTM 구조를 독립적으로 최적화했지만, 본 연구에서는 CNN과 SeqNN 구조를 함께 최적화하는 새로운 방법을 제안한다. 또한 CNN 구조 내 층 순서에 제한을 두지 않고 DARTS가 자율적으로 결정하도록 하였다.
실험 결과, emoDARTS는 사람이 설계한 CNN-LSTM 모델보다 우수한 성능을 보였으며, DARTS를 활용한 기존 최고 SER 결과를 넘어섰다. IEMOCAP, MSP-IMPROV, MSP-Podcast 데이터셋에서 평가한 결과, emoDARTS는 일반화 능력이 뛰어난 것으로 나타났다.
연구 과정에서 GPU 메모리 사용량 최적화, 지역 최소값 수렴, 결과의 높은 표준편차 등의 과제를 해결하기 위한 전략을 제시하였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問