이 논문은 공중-지상 카메라 네트워크에서의 사람 재식별(AGPReID) 문제를 다룬다. 기존 사람 재식별 방법들은 동종 카메라 네트워크(지상-지상 또는 공중-공중)에서 뛰어난 성능을 보이지만, 이질적 카메라 네트워크(공중-지상)에서는 극심한 뷰 차이로 인해 성능이 저하된다.
이를 해결하기 위해 저자들은 뷰 분리 트랜스포머(VDT)를 제안한다. VDT는 두 가지 핵심 메커니즘을 통해 뷰 관련 및 뷰 무관 특징을 분리한다. 첫째, 계층적 뺄셈 분리를 통해 각 VDT 블록에서 뷰 관련 특징을 점진적으로 제거한다. 둘째, 직교 손실 함수를 통해 최종 출력의 뷰 관련 및 뷰 무관 특징이 서로 독립적이도록 제약한다.
또한 저자들은 공중-지상 카메라 네트워크를 모사한 대규모 합성 데이터셋 CARGO를 제공한다. CARGO는 5,000개 ID, 108,563개 이미지로 구성되어 있으며, 다양한 해상도, 조명, 가림 등의 현실적인 문제를 포함한다.
실험 결과, VDT는 기존 방법 대비 CARGO 데이터셋에서 최대 5.0%/2.7% mAP/Rank1 향상을, AG-ReID 데이터셋에서 최대 3.7%/5.2% mAP/Rank1 향상을 보였다. 이는 VDT가 공중-지상 카메라 네트워크에서 발생하는 뷰 차이 문제를 효과적으로 해결할 수 있음을 보여준다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Quan Zhang,L... a las arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14513.pdfConsultas más profundas