Core Concepts
사전 학습된 모델의 특징을 활용하여 다중 모달 정보를 융합함으로써 현장에서의 정서적 행동 분석 성능을 향상시킬 수 있다.
Abstract
이 논문은 정서적 행동 분석을 위한 다중 모달 융합 방법을 제안한다. 먼저 다양한 사전 학습 모델을 활용하여 오디오, 시각, 텍스트 모달리티에서 특징을 추출한다. 그 후 이를 융합하기 위해 MCTN, MFN, 주의 집중 네트워크 등의 모델을 사용한다. 이를 통해 정서 상태 추정(VA 과제) 및 표정 인식(Expr 과제) 성능을 향상시킬 수 있었다. 구체적으로 VA 과제에서는 MCTN 모델이 가장 좋은 성능을 보였고, Expr 과제에서는 MobileNetV3 백본에 Transformer 인코더를 결합한 모델이 우수한 성능을 달성했다. 이러한 결과는 사전 학습 모델 특징과 다중 모달 융합 기법을 활용하면 현장에서의 정서적 행동 분석 문제를 효과적으로 해결할 수 있음을 보여준다.
Stats
정서 상태 추정(VA) 과제에서 MCTN 모델은 0.6943의 CCC 성능을 달성했다.
표정 인식(Expr) 과제에서 MobileNetV3 백본에 Transformer 인코더를 결합한 모델은 0.289의 F1 점수를 기록했다.
Quotes
"사전 학습된 모델의 특징을 활용하여 다중 모달 정보를 융합함으로써 현장에서의 정서적 행동 분석 성능을 향상시킬 수 있다."
"MCTN 모델이 VA 과제에서 가장 좋은 성능을 보였고, MobileNetV3 백본에 Transformer 인코더를 결합한 모델이 Expr 과제에서 우수한 성능을 달성했다."