본 연구는 마스크드 오토인코더(MAE) 사전 학습, 시간 합성곱 신경망(TCN), 트랜스포머 인코더 모듈을 활용하여 연속 감정 인식 성능을 향상시키는 방법을 제안한다.
먼저 MAE 모델을 대규모 얼굴 이미지 데이터셋에 대해 사전 학습하여 강력한 시각적 특징 추출기를 구축한다. 이후 aff-wild2 데이터셋의 표정 레이블로 fine-tuning하여 데이터 분포에 더 잘 맞는 특징 추출기를 만든다.
다음으로 비디오를 겹치는 세그먼트로 나누고, 각 세그먼트에 대해 TCN과 트랜스포머 인코더를 적용하여 시간적 정보를 모델링한다. 이를 통해 감정 인식 성능을 향상시킬 수 있다.
실험 결과, 제안 방법은 기존 베이스라인 대비 감정 가치-각성 추정, 표정 분류, 행동 단위 검출 등 다양한 과제에서 큰 성능 향상을 보였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor