Core Concepts
노이즈 대응 텍스트-이미지 사람 재식별을 위해 신뢰할 수 있는 시각-의미 연관성을 학습하는 방법을 제안한다.
Abstract
이 논문은 텍스트-이미지 사람 재식별(TIReID) 문제에서 발생할 수 있는 노이즈 대응(NC) 문제를 다룬다. NC는 이미지-텍스트 쌍이 잘못 정렬되어 있는 경우를 의미한다. 이러한 NC는 모델이 잘못된 시각-의미 연관성을 학습하게 만들어 성능 저하를 초래한다.
이를 해결하기 위해 저자들은 Robust Dual Embedding (RDE) 방법을 제안한다. RDE는 다음 두 가지 핵심 구성 요소로 이루어진다:
Confident Consensus Division (CCD) 모듈: 두 개의 임베딩 모듈의 결정을 활용하여 신뢰할 수 있는 학습 데이터 집합을 얻는다. 이를 통해 모델이 올바르고 신뢰할 수 있는 시각-의미 연관성을 학습할 수 있다.
Triplet Alignment Loss (TAL): 기존의 Triplet Ranking Loss와 달리, 가장 어려운 부정적 샘플에 대한 최적화를 모든 부정적 샘플로 완화한다. 이를 통해 NC 하에서 모델 붕괴를 방지하고 어려운 부정적 샘플에 초점을 맞출 수 있다.
실험 결과, RDE는 합성 노이즈 대응 유무와 관계없이 3개의 공개 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성했다.
Stats
이미지-텍스트 쌍에서 잘못 정렬된 부분이 많을수록 모델 성능이 크게 저하된다.
제안한 RDE 방법은 노이즈 대응 유무와 관계없이 우수한 성능을 보인다.
Quotes
"노이즈 대응(NC)은 이미지-텍스트 쌍이 잘못 정렬되어 있는 경우를 의미한다. 이러한 NC는 모델이 잘못된 시각-의미 연관성을 학습하게 만들어 성능 저하를 초래한다."
"제안한 RDE 방법은 Confident Consensus Division (CCD) 모듈과 Triplet Alignment Loss (TAL)를 통해 NC에 강인한 성능을 달성한다."