Core Concepts
본 연구는 미세 표정 인식을 위해 계층적 시공간 주의 집중 기법을 제안한다. 이 기법은 시간적 정보를 효과적으로 모델링하고 서로 다른 데이터 모달리티를 융합하여 미세 표정의 깊이 있는 특징을 포착한다.
Abstract
이 논문은 미세 표정 인식(MER)을 위한 계층적 주의 집중 기법을 제안한다.
- 먼저 Unimodal Space-Time Attention(USTA)을 통해 미세 표정 동영상의 시간적 정보를 효과적으로 모델링한다. USTA는 미세한 얼굴 움직임과 특정 얼굴 영역 간의 관계를 포착한다.
- 다음으로 Crossmodal Space-Time Attention(CSTA)을 통해 서로 다른 데이터 모달리티(동영상 프레임, 특수 프레임 등)를 효과적으로 융합한다. CSTA는 모달리티 간 상호 보완적인 정보를 활용하여 표정 인식 성능을 향상시킨다.
- 마지막으로 USTA와 CSTA를 계층적으로 통합한 Hierarchical Space-Time Attention(HSTA) 모델을 제안한다. HSTA는 미세 표정의 깊이 있는 특징을 포착하고 일반화 성능을 향상시킨다.
- 실험 결과, HSTA는 기존 최신 방법들보다 우수한 성능을 보였으며, 특히 CASME3 데이터셋에서 약 3%의 성능 향상을 달성했다.
Stats
미세 표정 동영상에서 얼굴 움직임과 특정 얼굴 영역 간의 관계를 모델링하는 것이 중요하다.
서로 다른 데이터 모달리티(동영상 프레임, 특수 프레임 등)를 효과적으로 융합하면 표정 인식 성능을 향상시킬 수 있다.
계층적 구조를 통해 미세 표정의 깊이 있는 특징을 포착하고 일반화 성능을 향상시킬 수 있다.
Quotes
"미세 표정은 짧고 미묘한 얼굴 움직임으로, 진정한 감정을 드러낸다."
"기존 방법들은 특수 프레임이나 광학 흐름에 과도하게 의존하여 시간적 특성을 충분히 활용하지 못했다."
"본 연구의 HSTA 모델은 시간적 정보 모델링과 서로 다른 모달리티 융합을 효과적으로 달성하여 우수한 성능을 보였다."