Core Concepts
ARBEx는 Vision Transformer 기반의 주의 기반 특징 추출 프레임워크와 신뢰도 균형 기법을 결합하여 얼굴 표정 학습에서 발생하는 클래스 불균형, 편향 및 불확실성 문제를 효과적으로 해결하는 강력한 방법입니다.
Abstract
ARBEx: 안정적인 얼굴 표정 학습을 위한 신뢰도 균형 기반의 주의 기반 특징 추출
본 연구 논문에서는 얼굴 표정 학습 (FEL) 작업에서 클래스 불균형, 편향 및 불확실성 문제를 해결하기 위해 신뢰도 균형 기반의 주의 기반 특징 추출 프레임워크인 ARBEx를 제안합니다.
데이터 전처리 및 개선
이미지 크기 조정, 회전, 색상 향상, 노이즈 균형 조정 등 다양한 이미지 처리 기법을 활용하여 데이터 증강을 수행합니다.
각 epoch마다 비디오 또는 얼굴 그룹에서 무작위로 이미지를 선택하고 클래스별로 균등하게 이미지를 추출하여 훈련 데이터를 정제합니다.
Window-Based Cross-Attention ViT 기반 특징 추출
사전 훈련된 랜드마크 추출기와 이미지 백본 모델을 사용하여 얼굴 랜드마크를 기반으로 다단계 특징을 추출합니다.
Window-based cross-attention 메커니즘을 통해 랜드마크 및 이미지 특징을 효과적으로 결합합니다.
Vision Transformer를 사용하여 다양한 스케일의 특징 맵을 통합하고 풍부한 표현을 얻습니다.
신뢰도 균형
임베딩 공간에 학습 가능한 앵커 포인트를 배치하고 멀티 헤드 self-attention 메커니즘을 사용하여 예측의 신뢰도를 향상시킵니다.
앵커 레이블 수정 및 주의 기반 수정을 통해 레이블 분포를 안정화하고 정확도를 높입니다.
최종 레이블 분포를 계산하기 위해 레이블 분포와 레이블 수정을 가중치 합산합니다.
손실 함수
클래스 분포 손실, 앵커 손실 및 중심 손실을 결합하여 모델을 훈련합니다.
앵커 손실은 앵커 간의 거리를 최대화하여 모델의 판별 능력을 향상시킵니다.
중심 손실은 임베딩이 동일한 클래스의 앵커에 가까워지도록 하여 표현의 일관성을 높입니다.