이 논문은 Vision Transformer (ViT) 모델의 affine 변환에 대한 강인성을 높이는 방법을 제안한다. 얼굴 인식과 같은 다양한 인식 작업에서 이미지 정렬 실패가 발생할 때 이러한 강인성이 유용해진다.
제안하는 KP-RPE 방법은 키포인트(예: 얼굴 랜드마크)를 활용하여 ViT의 공간적 관계를 더욱 효과적으로 유지할 수 있도록 한다. 키포인트 주변의 픽셀 중요도를 조정함으로써, 공간적 관계가 affine 변환에 의해 방해받더라도 모델이 이를 더 잘 보존할 수 있다.
실험 결과, KP-RPE는 저품질 이미지에서의 얼굴 인식 성능을 크게 향상시키며, 정렬된 데이터셋에서도 성능을 유지하거나 향상시킨다. 또한 KP-RPE는 계산 효율성 면에서도 우수하다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы