核心概念
본 연구는 얼굴 인식을 위한 효과적인 표현 학습을 위해 랜드마크 기반의 자기지도학습 프레임워크 LAFS를 제안한다. LAFS는 전체 랜드마크와 랜드마크 부분집합 간의 유사성을 최소화하여 얼굴 인식에 중요한 표현을 학습한다. 또한 랜드마크 셔플링과 좌표 교란 등의 새로운 데이터 증강 기법을 도입하여 성능을 향상시킨다.
要約
본 연구는 얼굴 인식을 위한 효과적인 표현 학습 방법을 제안한다. 기존 연구에서는 전체 이미지 기반의 자기지도학습 방법을 사용했지만, 이는 얼굴 인식에 중요한 국소적 특징을 충분히 학습하지 못하는 한계가 있었다.
이를 해결하기 위해 LAFS는 랜드마크 기반의 자기지도학습 프레임워크를 제안한다. LAFS는 사전 학습된 랜드마크 추출기를 활용하여 전체 랜드마크와 랜드마크 부분집합 간의 유사성을 최소화하는 방식으로 학습을 진행한다. 이를 통해 얼굴 인식에 중요한 국소적 특징을 효과적으로 학습할 수 있다.
또한 LAFS는 랜드마크 셔플링과 좌표 교란 등의 새로운 데이터 증강 기법을 도입하여 성능을 향상시킨다. 이러한 랜드마크 기반의 데이터 증강 기법은 기존 전체 이미지 기반의 증강 기법과는 차별화된다.
실험 결과, LAFS는 다양한 얼굴 인식 벤치마크에서 최신 기술 수준을 능가하는 성능을 보였다. 특히 적은 수의 샘플로 학습하는 few-shot 시나리오에서 큰 성능 향상을 보였다. 이는 LAFS가 얼굴 인식에 중요한 특징을 효과적으로 학습할 수 있음을 보여준다.
統計
본 연구에서는 Webface42M 데이터셋의 1백만 장 이미지를 사용하여 자기지도학습을 수행했다.
파인튜닝 시 MS1MV3와 Webface4M 데이터셋을 사용했다.
引用
"With a vast number of unlabelled facial images in the real world, how can we take advantage of those data to train a face recognition model?"
"With only a limited number of samples for each identity (few-shot learning), how well can a face recognition model perform and to what extent self-supervised learning can be of improvement over straightforward supervised training?"
"What causes the failure of self-supervised learning when scaling from limited data to large-scale data?"