核心概念
본 논문에서는 사전 훈련된 비전 트랜스포머(ViT)를 기반으로 얼굴 표정에서 감정 관련 특징을 분리하고 인식하는 새로운 방법인 PF-ViT를 제안합니다. PF-ViT는 입력 얼굴 표정에서 감정을 제거한 포커페이스를 생성하는 GAN 프레임워크를 통해 학습되며, 이를 통해 감정 인식 성능을 향상시킵니다.
要約
비전 트랜스포머를 이용한 포커페이스 생성을 통한 얼굴 표정에서의 감정 분리 및 인식
본 연구는 얼굴 표정 인식(FER)에서 감정과 무관한 요소의 영향을 최소화하고 순수한 감정 표현을 추출하여 인식 성능을 향상시키는 것을 목표로 합니다.
본 논문에서는 입력 얼굴 이미지에서 감정을 제거한 포커페이스를 생성하는 GAN 프레임워크를 통해 학습되는 새로운 FER 모델인 PF-ViT를 제안합니다.
PF-ViT의 주요 구성 요소
이미지 인코더 (E): 입력 얼굴 이미지를 시각적 토큰 시퀀스로 변환합니다. 본 연구에서는 사전 훈련된 ViT-Tiny, ViT-Small, ViT-Base를 사용합니다.
토큰 분리기 (S): 인코더에서 생성된 시각적 토큰 시퀀스를 감정 관련 구성 요소 (ve)와 감정 무관 구성 요소 (vp)로 분리합니다.
이미지 생성기 (G): 분리된 토큰 (ve, vp)과 마스크 토큰을 입력으로 받아 원본 얼굴 이미지 (ˆx)와 감정이 제거된 포커페이스 (˜x)를 생성합니다.
분류 헤드 (C): 분리된 감정 관련 구성 요소 (ve)를 기반으로 얼굴 표정을 분류합니다.
학습 과정
MAE 사전 학습: 대규모 얼굴 표정 데이터셋(AffectNet-270K)을 사용하여 ViT 인코더를 MAE(Masked Autoencoder) 방식으로 사전 학습합니다.
PF-MAG 학습: 사전 학습된 인코더를 사용하여 PF-ViT와 판별기를 적대적으로 학습합니다. 판별기는 생성된 이미지 (ˆx, ˜x)와 실제 이미지 (x)를 구별하고, PF-ViT는 판별기를 속이도록 학습됩니다.