核心概念
본 연구는 DARTS를 활용하여 CNN과 순차 신경망 구조를 최적화하여 음성 감정 인식 성능을 향상시킨다.
摘要
이 연구는 음성 감정 인식(SER)을 위한 DARTS 최적화 CNN-SeqNN 모델인 "emoDARTS"를 제안한다. 기존 연구에서는 CNN과 LSTM 구조를 독립적으로 최적화했지만, 본 연구에서는 CNN과 SeqNN 구조를 함께 최적화하는 새로운 방법을 제안한다. 또한 CNN 구조 내 층 순서에 제한을 두지 않고 DARTS가 자율적으로 결정하도록 하였다.
실험 결과, emoDARTS는 사람이 설계한 CNN-LSTM 모델보다 우수한 성능을 보였으며, DARTS를 활용한 기존 최고 SER 결과를 넘어섰다. IEMOCAP, MSP-IMPROV, MSP-Podcast 데이터셋에서 평가한 결과, emoDARTS는 일반화 능력이 뛰어난 것으로 나타났다.
연구 과정에서 GPU 메모리 사용량 최적화, 지역 최소값 수렴, 결과의 높은 표준편차 등의 과제를 해결하기 위한 전략을 제시하였다.
统计
음성 감정 인식 성능 향상을 위해 DARTS를 활용하여 CNN과 순차 신경망 구조를 최적화하였다.
IEMOCAP 데이터셋에서 emoDARTS의 가중치 정확도(WA%)는 78.03%로 나타났다.
MSP-IMPROV 데이터셋에서 emoDARTS의 가중치 정확도(WA%)는 65.32%로 나타났다.
MSP-Podcast 데이터셋에서 emoDARTS의 가중치 정확도(WA%)는 62.33%로 나타났다.
引用
"본 연구는 DARTS를 활용하여 CNN과 순차 신경망 구조를 최적화하여 음성 감정 인식 성능을 향상시킨다."
"emoDARTS는 사람이 설계한 CNN-LSTM 모델보다 우수한 성능을 보였으며, DARTS를 활용한 기존 최고 SER 결과를 넘어섰다."
"연구 과정에서 GPU 메모리 사용량 최적화, 지역 최소값 수렴, 결과의 높은 표준편차 등의 과제를 해결하기 위한 전략을 제시하였다."