Concepts de base
다중 모달 대화 상황에서 일관성 있고 보완적인 의미 특징을 효율적으로 포착하는 것이 다중 모달 대화 감정 인식의 핵심이다.
Résumé
이 논문은 다중 모달 대화 감정 인식 문제를 그래프 스펙트럼 관점에서 재검토한다. 구체적으로 제안하는 GS-MCC 프레임워크는 다음과 같다:
-
슬라이딩 윈도우를 사용하여 다중 모달 상호작용 그래프를 구축하여 대화 관계를 모델링하고, 효율적인 푸리에 그래프 연산자를 사용하여 장거리 고주파 및 저주파 정보를 각각 추출한다.
-
고주파 및 저주파 정보 간의 협업 능력을 높이기 위해 대조 학습을 사용하여 고주파 및 저주파 신호의 보완성과 일관성 있는 의미 협업을 반영하는 자기 지도 신호를 구축한다.
-
협업된 고주파 및 저주파 정보를 MLP 네트워크와 softmax 함수에 입력하여 감정 예측을 수행한다.
실험 결과는 제안된 GS-MCC 모델이 장거리 의존성 정보를 효율적으로 포착하고 고주파 및 저주파 정보의 협업을 향상시켜 IEMOCAP 및 MELD 벤치마크 데이터셋에서 우수한 감정 인식 성능을 달성했음을 보여준다.
Stats
다중 모달 대화 감정 인식 문제는 텍스트, 음향, 시각 정보를 활용하여 대화 문맥에서 각 발화의 감정 상태를 식별하는 것을 목표로 한다.
기존 방법은 그래프 신경망을 사용하여 다중 모달 발화 간의 의미 의존성을 모델링하지만, 과도한 평활화와 저역 통과 필터링 특성으로 인해 장거리 일관성 정보와 보완적 정보를 효율적으로 학습하지 못한다.
제안하는 GS-MCC 모델은 푸리에 그래프 연산자를 사용하여 장거리 고주파 및 저주파 정보를 효율적으로 추출하고, 대조 학습을 통해 고주파 및 저주파 정보 간의 협업을 향상시킨다.
Citations
"다중 모달 대화 상황에서 일관성 있고 보완적인 의미 특징을 효율적으로 포착하는 것이 다중 모달 대화 감정 인식의 핵심이다."
"기존 방법은 그래프 신경망을 사용하여 다중 모달 발화 간의 의미 의존성을 모델링하지만, 과도한 평활화와 저역 통과 필터링 특성으로 인해 장거리 일관성 정보와 보완적 정보를 효율적으로 학습하지 못한다."
"제안하는 GS-MCC 모델은 푸리에 그래프 연산자를 사용하여 장거리 고주파 및 저주파 정보를 효율적으로 추출하고, 대조 학습을 통해 고주파 및 저주파 정보 간의 협업을 향상시킨다."