본 연구는 감정 인식을 위한 다중 모달 접근법을 제안한다. 기존 연구들은 주로 단일 모달리티 또는 수작업 특징 추출에 의존했지만, 감정은 다양한 모달리티에 걸쳐 표현되므로 다중 모달 접근이 더 강력한 분류기를 제공할 수 있다.
제안하는 모델은 계층적 구조를 가지고 있다. 인코더 단계에서는 각 모달리티 내의 채널 간 상관관계를 학습하고, 융합 모듈에서는 모달리티 간 상관관계를 학습한다. 이를 위해 인코더는 초복소수 합성곱(PHC) 연산을 사용하여 단일 모달리티 내의 상관관계를 모델링하고, 융합 모듈은 초복소수 곱셈(PHM) 연산을 사용하여 모달리티 간 상관관계를 모델링한다.
실험 결과, 제안하는 계층적 초복소수 모델은 기존 최신 모델에 비해 arousal 및 valence 분류 성능이 각각 40.20% 및 57.11% 향상되었다. 이는 인코더 단계에서 초복소수 대수를 활용하여 단일 모달리티 내의 상관관계를 효과적으로 학습할 수 있기 때문이다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Eleonora Lop... في arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09194.pdfاستفسارات أعمق