المفاهيم الأساسية
본 논문에서는 MegaDetector와 두 개의 분류기를 결합한 방법과 DINOv2 기반 이미지 검색 방법을 통해 카메라 트랩 이미지의 제로샷 분류 가능성을 제시합니다.
الملخص
카메라 트랩 이미지의 제로샷 분류 연구 논문 요약
본 연구는 카메라 트랩 이미지 분류 작업 자동화를 위한 다양한 접근 방식을 비교 분석하고, 특히 MegaDetector와 두 개의 분류기를 결합한 방법 및 DINOv2 기반 이미지 검색 방법을 통한 제로샷 분류의 가능성을 탐구합니다.
데이터셋: 북미의 CCT20, 유럽의 CEF22, 오세아니아의 WCT, 아프리카의 Snapshot Safari 등 다양한 지역에서 수집된 카메라 트랩 이미지 데이터셋을 사용했습니다.
모델:
MegaDetector: 이미지에서 동물, 사람, 차량을 감지하는 데 사용되었습니다.
분류기: BEiT, BEiTV2, EfficientViT 등의 최첨단 CNN 및 트랜스포머 기반 아키텍처를 사용하여 이미지 분류 성능을 비교했습니다.
제로샷 분류:
멀티모달 모델: BLIP, ChatGPT를 사용하여 텍스트 기반 이미지 정보 추출 및 분류를 시도했습니다.
이미지 검색: DINOv2, BioCLIP에서 추출한 이미지 임베딩을 FAISS 라이브러리와 함께 사용하여 이미지 검색 기반 제로샷 분류를 수행했습니다.
평가 지표: Top-1, Top-3 정확도, 매크로 평균 F1 점수를 사용하여 모델 성능을 평가했습니다.