核心概念
L2RM verbessert die Robustheit gegenüber unpassenden Paaren für Cross-Modal-Retrieval.
統計資料
In der Praxis enthalten Standardbildunterschriftsdatensätze wie Conceptual Captions etwa 3% bis 20% unpassende Paare.
L2RM verbessert die Leistung auf verschiedenen Benchmarks signifikant.
引述
"Unsere Hauptbeiträge bestehen darin, ein allgemeines OT-basiertes Framework vorzuschlagen, um das weit verbreitete PMP-Problem im Cross-Modal-Retrieval anzugehen."
"Unsere Methode übertrifft alle anderen Methoden auf verschiedenen Metriken und zeigt die überlegene Robustheit von L2RM gegenüber PMPs."