핵심 개념
공중-지상 카메라 네트워크에서 발생하는 극심한 뷰 차이로 인한 식별 표현의 저하를 해결하기 위해 뷰 관련 및 뷰 무관 특징을 분리하는 뷰 분리 트랜스포머를 제안한다.
초록
이 논문은 공중-지상 카메라 네트워크에서의 사람 재식별(AGPReID) 문제를 다룬다. 기존 사람 재식별 방법들은 동종 카메라 네트워크(지상-지상 또는 공중-공중)에서 뛰어난 성능을 보이지만, 이질적 카메라 네트워크(공중-지상)에서는 극심한 뷰 차이로 인해 성능이 저하된다.
이를 해결하기 위해 저자들은 뷰 분리 트랜스포머(VDT)를 제안한다. VDT는 두 가지 핵심 메커니즘을 통해 뷰 관련 및 뷰 무관 특징을 분리한다. 첫째, 계층적 뺄셈 분리를 통해 각 VDT 블록에서 뷰 관련 특징을 점진적으로 제거한다. 둘째, 직교 손실 함수를 통해 최종 출력의 뷰 관련 및 뷰 무관 특징이 서로 독립적이도록 제약한다.
또한 저자들은 공중-지상 카메라 네트워크를 모사한 대규모 합성 데이터셋 CARGO를 제공한다. CARGO는 5,000개 ID, 108,563개 이미지로 구성되어 있으며, 다양한 해상도, 조명, 가림 등의 현실적인 문제를 포함한다.
실험 결과, VDT는 기존 방법 대비 CARGO 데이터셋에서 최대 5.0%/2.7% mAP/Rank1 향상을, AG-ReID 데이터셋에서 최대 3.7%/5.2% mAP/Rank1 향상을 보였다. 이는 VDT가 공중-지상 카메라 네트워크에서 발생하는 뷰 차이 문제를 효과적으로 해결할 수 있음을 보여준다.
통계
공중 카메라와 지상 카메라의 높이 차이로 인해 최대 해상도는 1009x539, 최소 해상도는 22x7이다.
공중 카메라와 지상 카메라 간 극심한 뷰 차이가 존재한다.
CARGO 데이터셋에는 5,000개의 ID와 108,563개의 이미지가 포함되어 있다.
인용구
"기존 사람 재식별 방법들은 동종 카메라 네트워크(지상-지상 또는 공중-공중)에서 뛰어난 성능을 보이지만, 이질적 카메라 네트워크(공중-지상)에서는 극심한 뷰 차이로 인해 성능이 저하된다."
"VDT는 계층적 뺄셈 분리와 직교 손실 함수를 통해 뷰 관련 및 뷰 무관 특징을 효과적으로 분리할 수 있다."