Core Concepts
본 연구는 장기 비디오에서 거시 표정과 미세 표정을 효과적으로 탐지하기 위해 다중 스케일 시공간 그래프 합성곱 신경망 모델을 제안한다. 이 모델은 수용 영역 적응형 슬라이딩 윈도우 전략을 통해 미세한 움직임 특징을 증폭시키고, 그래프 합성곱 신경망을 통해 다중 스케일의 공간-시간 관계를 학습한다. 또한 지도 대조 학습을 도입하여 다양한 유형의 표정 프레임을 더욱 효과적으로 구분할 수 있다.
Abstract
본 연구는 장기 비디오에서 거시 표정과 미세 표정을 효과적으로 탐지하기 위한 다중 스케일 시공간 그래프 합성곱 신경망 모델을 제안한다.
데이터 전처리 모듈:
수용 영역 적응형 슬라이딩 윈도우 전략을 사용하여 입력 비디오를 중첩된 시간 윈도우로 분할하고, 얼굴 그래프 구조화된 광학 흐름 특징을 추출한다.
특징 학습 모듈:
제안한 SpoT-GCN 모델은 광학 흐름 특징을 입력으로 받아 프레임 단위의 정점 또는 경계 확률을 추정한다.
SpoT-GCN은 시공간 그래프 합성곱 신경망을 사용하여 다양한 얼굴 부위 간의 공간 관계와 시간적 변화를 포착한다.
얼굴 국부 그래프 풀링 전략을 도입하여 다중 스케일 특징 학습을 수행한다.
지도 대조 학습을 통해 다양한 유형의 표정 프레임을 더욱 효과적으로 구분할 수 있다.
후처리 모듈:
모든 프레임의 확률 맵을 집계하여 거시 표정과 미세 표정 제안을 생성한다.
실험 결과, 제안 모델은 SAMM-LV와 CAS(ME)2 데이터셋에서 기존 최신 기법 대비 우수한 성능을 보였으며, 특히 미세 표정 탐지 성능이 크게 향상되었다.
Stats
거시 표정 탐지 F1-점수: 0.4631
미세 표정 탐지 F1-점수: 0.4035
전체 F1-점수: 0.4454
Quotes
"본 연구는 장기 비디오에서 거시 표정과 미세 표정을 효과적으로 탐지하기 위해 다중 스케일 시공간 그래프 합성곱 신경망 모델을 제안한다."
"제안한 SpoT-GCN 모델은 광학 흐름 특징을 입력으로 받아 프레임 단위의 정점 또는 경계 확률을 추정한다."
"얼굴 국부 그래프 풀링 전략을 도입하여 다중 스케일 특징 학습을 수행한다."