Core Concepts
키포인트(예: 얼굴 랜드마크)를 활용하여 Vision Transformer (ViT)를 스케일, 이동, 자세 변화에 더욱 강인하게 만드는 새로운 방법인 KP-RPE를 제안한다.
Abstract
이 논문은 Vision Transformer (ViT) 모델의 affine 변환에 대한 강인성을 높이는 방법을 제안한다. 얼굴 인식과 같은 다양한 인식 작업에서 이미지 정렬 실패가 발생할 때 이러한 강인성이 유용해진다.
제안하는 KP-RPE 방법은 키포인트(예: 얼굴 랜드마크)를 활용하여 ViT의 공간적 관계를 더욱 효과적으로 유지할 수 있도록 한다. 키포인트 주변의 픽셀 중요도를 조정함으로써, 공간적 관계가 affine 변환에 의해 방해받더라도 모델이 이를 더 잘 보존할 수 있다.
실험 결과, KP-RPE는 저품질 이미지에서의 얼굴 인식 성능을 크게 향상시키며, 정렬된 데이터셋에서도 성능을 유지하거나 향상시킨다. 또한 KP-RPE는 계산 효율성 면에서도 우수하다.
Stats
정렬된 MNIST 데이터셋에서 ViT 모델은 98.1%의 정확도를 달성하지만, 비정렬된 AffNIST 데이터셋에서는 77.27%로 성능이 크게 떨어진다.
KP-RPE를 적용하면 비정렬된 AffNIST 데이터셋에서 성능이 크게 향상된다.
Quotes
"키포인트 RPE (KP-RPE)는 이미지 내 키포인트를 기반으로 ViT의 공간적 관계를 동적으로 적응시키는 새로운 방법이다."
"KP-RPE는 정렬된 데이터셋에서의 성능을 유지하거나 향상시키면서, 특히 정렬이 실패하기 쉬운 저품질 데이터셋에서 얼굴 인식 성능을 크게 향상시킨다."