핵심 개념
Eine robuste Dual-Embedding-Methode (RDE) wird vorgestellt, die auch bei verrauschter Korrespondenz zwischen Bild und Text zuverlässige visuelle-semantische Zuordnungen lernen kann.
초록
Die Kernaussage des Artikels ist, dass eine robuste Dual-Embedding-Methode (RDE) entwickelt wurde, um das Problem der verrauschten Korrespondenz (Noisy Correspondence, NC) in der Text-zu-Bild-Personenwiederidentifizierung (TIReID) zu adressieren.
Der Artikel gliedert sich wie folgt:
- Einleitung: TIReID ist eine wichtige Aufgabe, bei der jedoch das Problem der NC auftritt, wenn die Bild-Text-Paare nicht korrekt zugeordnet sind. Dies kann die Leistung bestehender Methoden beeinträchtigen.
- Methodik: RDE besteht aus zwei Hauptkomponenten:
a) Confident Consensus Division (CCD): Nutzt die Entscheidungen zweier Embedding-Module, um einen Konsens-Satz sauberer Trainingsdaten zu erhalten, um korrekte visuelle-semantische Zuordnungen zu lernen.
b) Triplet Alignment Loss (TAL): Relaxiert den konventionellen Triplet Ranking Loss, um die Auswirkungen der schwierigsten negativen Beispiele zu reduzieren und so eine stabilere Optimierung zu erreichen.
- Experimente: RDE wird auf drei öffentlichen Benchmarks evaluiert und erzielt sowohl mit als auch ohne synthetische NC die besten Ergebnisse.
통계
Die Ähnlichkeit zwischen Bild und Text wird durch die durchschnittliche Ähnlichkeit der beiden Embedding-Module berechnet.
Unter 50% NC erreicht RDE auf CUHK-PEDES 71,33%, 87,41% und 91,81% in Rank-1, 5 und 10, was die beste Baseline DECL um 6,11%, 3,69% und 2,53% übertrifft.
인용구
"Noisy correspondence (NC) refers to the false correspondences of image-text pairs in TIReID, i.e., False Positive Pairs (FPPs): some negative image-text pairs are used as positive ones for cross-modal learning."
"To address the NC problem, we propose a Robust Dual Embedding method (RDE) for TIReID in this paper, which benefits from an effective Confident Consensus Division mechanism (CCD) and a novel Triplet Alignment Loss (TAL)."