核心概念
이미지넷에서 사전 훈련된 CNN 및 ViT 모델은 주변 안구 인식에서 우수한 성능을 달성하기 위해 미세 조정 없이 특징 추출기로 직접 사용할 수 있으며, 이러한 모델의 조합은 성능을 더욱 향상시킵니다.
要約
기성 CNN 및 ViT 기능 조합을 활용한 주변 안구 인식: 성능 및 상보성 분석
본 연구 논문에서는 이미지넷 데이터 세트로 사전 훈련된 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT)를 주변 안구 인식 작업에 적용하여 전이 학습 및 일회성 학습의 효과를 탐구합니다. 저자들은 CNN과 ViT에서 추출한 중간 계층 특징이 주변 안구 이미지를 기반으로 개인을 인식하는 데 매우 효과적임을 실험적으로 입증합니다.
이 연구의 주요 목표는 사전 훈련된 CNN 및 ViT 모델을 특징 추출기로 사용하여 주변 안구 인식 작업의 성능을 평가하고, CNN과 ViT의 상보성을 분석하여 성능 향상 가능성을 확인하는 것입니다.
저자들은 다양한 복잡도를 가진 세 가지 CNN(ResNet-18, ResNet-50, ResNet-101)과 세 가지 ViT(Tiny, Small, Base)를 사용했습니다. UBIPr 주변 안구 데이터베이스를 사용하여 검증 실험을 수행했으며, 왼쪽 및 오른쪽 눈 이미지를 수평으로 뒤집어 현실적인 시나리오를 모방했습니다. 다양한 계층에서 추출한 특징 벡터를 코사인 유사도를 사용하여 비교하고, 성능을 평가하기 위해 EER(Equal Error Rate)을 사용했습니다. 또한 CNN과 ViT의 다양한 계층 조합을 사용하여 융합 실험을 수행했습니다.