Khái niệm cốt lõi
L2RM verbessert die Robustheit gegenüber unpassenden Paaren für Cross-Modal-Retrieval.
Thống kê
In der Praxis enthalten Standardbildunterschriftsdatensätze wie Conceptual Captions etwa 3% bis 20% unpassende Paare.
L2RM verbessert die Leistung auf verschiedenen Benchmarks signifikant.
Trích dẫn
"Unsere Hauptbeiträge bestehen darin, ein allgemeines OT-basiertes Framework vorzuschlagen, um das weit verbreitete PMP-Problem im Cross-Modal-Retrieval anzugehen."
"Unsere Methode übertrifft alle anderen Methoden auf verschiedenen Metriken und zeigt die überlegene Robustheit von L2RM gegenüber PMPs."