Core Concepts
본 연구는 항공 및 지상 카메라 영상을 활용하여 개인을 효과적으로 재식별하는 새로운 방법을 제안한다. 제안 모델은 세 개의 스트림으로 구성되어 있으며, 특히 항공 영상의 특징을 잘 포착하는 주의 집중 메커니즘을 포함하고 있다. 또한 속성 기반 주의 집중 맵을 통해 모델의 의사결정 과정을 설명할 수 있다.
Abstract
본 연구는 항공 및 지상 카메라 영상을 활용한 개인 재식별 문제를 다룬다. 기존 연구는 주로 지상 영상 간 개인 재식별에 초점을 맞추었으나, 항공 영상과 지상 영상을 통합한 연구는 부족한 실정이다. 이에 본 연구는 AG-ReID.v2라는 새로운 데이터셋을 소개하고, 이를 활용한 설명 가능한 주의 집중 기반 개인 재식별 모델을 제안한다.
AG-ReID.v2 데이터셋은 100,502장의 이미지와 1,615명의 고유 개인으로 구성되어 있다. 이미지는 드론, CCTV, 웨어러블 카메라로 촬영되었으며, 15가지 속성 정보가 포함되어 있다. 이를 통해 다양한 관점과 해상도, 조명 조건 등의 실제 상황을 반영하고 있다.
제안 모델은 세 개의 스트림으로 구성된다. 첫 번째 스트림은 Vision Transformer 기반의 특징 추출기로, 전반적인 개인 식별 성능을 담당한다. 두 번째 스트림은 항공 영상의 특징을 잘 포착하기 위해 머리 영역에 주의를 집중하는 메커니즘을 포함한다. 세 번째 스트림은 속성 기반 주의 집중 맵을 생성하여 모델의 의사결정 과정을 설명할 수 있게 한다.
실험 결과, 제안 모델은 기존 방법들에 비해 우수한 성능을 보였다. 특히 항공-지상 간 개인 재식별 과제에서 두드러진 성능 향상을 보였다. 이를 통해 본 연구가 항공 및 지상 영상을 활용한 개인 재식별 분야에 기여할 것으로 기대된다.
Stats
항공 영상의 해상도는 31x59 ~ 371x678 픽셀 범위이며, CCTV 영상은 22x23 ~ 172x413 픽셀, 웨어러블 카메라 영상은 이 두 범위 사이의 크기를 가진다.
드론 카메라로 촬영된 개인의 신체 크기는 43 ~ 739 픽셀 범위이고, 웨어러블 카메라는 25 ~ 1080 픽셀, CCTV 카메라는 23 ~ 622 픽셀 범위이다.
Quotes
"본 연구는 항공 및 지상 카메라 영상을 활용하여 개인을 효과적으로 재식별하는 새로운 방법을 제안한다."
"제안 모델은 세 개의 스트림으로 구성되어 있으며, 특히 항공 영상의 특징을 잘 포착하는 주의 집중 메커니즘을 포함하고 있다."
"또한 속성 기반 주의 집중 맵을 통해 모델의 의사결정 과정을 설명할 수 있다."