이 논문은 공중-지상 카메라 네트워크에서의 사람 재식별(AGPReID) 문제를 다룬다. 기존 사람 재식별 방법들은 동종 카메라 네트워크(지상-지상 또는 공중-공중)에서 뛰어난 성능을 보이지만, 이질적인 공중-지상 카메라 네트워크에서는 극심한 뷰 차이로 인해 성능이 저하된다.
이를 해결하기 위해 저자들은 뷰 분리 트랜스포머(VDT)를 제안한다. VDT는 두 가지 핵심 메커니즘을 통해 뷰 관련 및 뷰 무관 특징을 분리한다. 첫째, 계층적 뺄셈 분리를 통해 각 VDT 블록에서 메타 토큰과 뷰 토큰 간 뺄셈 연산을 수행하여 점진적으로 뷰 관련 특징을 제거한다. 둘째, 직교 손실 함수를 통해 최종 메타 토큰과 뷰 토큰이 서로 독립적이도록 제약한다.
또한 저자들은 공중-지상 카메라 네트워크를 모사한 대규모 합성 데이터셋 CARGO를 제공한다. CARGO는 5,000개 ID, 108,563개 이미지로 구성되어 있으며, 기존 AGPReID 데이터셋 대비 12.8배 더 많은 ID와 4.9배 더 많은 이미지를 포함한다.
실험 결과, VDT는 기존 방법 대비 CARGO 데이터셋에서 최대 5.0%/2.7% mAP/Rank1 향상, AG-ReID 데이터셋에서 최대 3.7%/5.2% mAP/Rank1 향상을 보였다. 이는 VDT가 공중-지상 카메라 네트워크에서의 극심한 뷰 차이를 효과적으로 해결할 수 있음을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問