Core Concepts
Entwicklung von Methoden zur Reduzierung geografischer Verzerrungen in Objekterkennungsmodellen, um eine fairere Leistung über verschiedene geografische Regionen hinweg zu erreichen.
Abstract
Die Studie analysiert verschiedene Methoden, um die inhärenten geografischen Verzerrungen in state-of-the-art Bildklassifizierungsmodellen zu mildern. Zunächst wird die Verzerrung quantitativ in zwei Datensätzen - dem Dollar Street Dataset und ImageNet - dargestellt, indem Bilder mit Standortinformationen verwendet werden. Anschließend werden verschiedene Methoden vorgestellt, die eingesetzt werden können, um diese Verzerrung zu reduzieren. Schließlich wird die Wirksamkeit der verschiedenen Techniken auf die Robustheit der Modelle gegenüber Standorten der Bilder analysiert.
Die Autoren untersuchen zunächst die Leistung von VGG16 und ResNet-18 Modellen, die auf ImageNet vortrainiert sind, auf den beiden Datensätzen. Sie zeigen, dass diese Modelle eine deutliche Leistungslücke zwischen Bildern aus Haushalten mit hohem und niedrigem Einkommen sowie zwischen Bildern aus westlichen und nicht-westlichen Regionen aufweisen.
Um diese Verzerrung zu mildern, testen die Autoren drei Methoden: Gewichtung des Verlusts nach Einkommen, Stichprobennahme zur Angleichung der Einkommensverteilung und den Einsatz von Focal Loss, um auf schwierige Beispiele stärker zu fokussieren. Zusätzlich untersuchen sie den Ansatz der adversariellen diskriminativen Domänenanpassung (ADDA).
Die Ergebnisse zeigen, dass die Methoden auf dem Dollar Street Datensatz vielversprechend sind, um die Leistungsunterschiede zwischen Einkommensgruppen zu reduzieren. Insbesondere Focal Loss mit γ = 5 liefert gute Ergebnisse. Auf dem ImageNet Datensatz sind die Verbesserungen weniger deutlich, aber Focal Loss zeigt auch hier positive Auswirkungen.
Stats
Die Genauigkeit der Originalmodelle (VGG16 und ResNet-18) variiert stark zwischen Bildern aus Haushalten mit hohem und niedrigem Einkommen.
Durch Gewichtung des Verlusts nach Einkommen konnte die Genauigkeitsspanne reduziert, aber nicht vollständig ausgeglichen werden.
Stichprobennahme zur Angleichung der Einkommensverteilung führte zu Überanpassung, zeigte aber ebenfalls eine Reduzierung der Genauigkeitsunterschiede.
Focal Loss mit γ = 5 erzielte die besten Ergebnisse und verringerte die Genauigkeitsunterschiede zwischen Einkommensgruppen deutlich, ohne die Gesamtgenauigkeit stark zu beeinträchtigen.
Die Experimente mit ADDA zeigten, dass der Domänenunterschied zwischen Bildern aus Haushalten mit hohem und niedrigem Einkommen zu groß ist, um eine effektive Anpassung zu erreichen.
Quotes
"Es gibt einen erheblichen Leistungsunterschied zwischen Bildern aus Haushalten mit hohem und niedrigem Einkommen sowie zwischen Bildern aus westlichen und nicht-westlichen Regionen."
"Focal Loss mit γ = 5 erzielte die besten Ergebnisse und verringerte die Genauigkeitsunterschiede zwischen Einkommensgruppen deutlich, ohne die Gesamtgenauigkeit stark zu beeinträchtigen."