Die Studie analysiert verschiedene Methoden, um die inhärenten geografischen Verzerrungen in state-of-the-art Bildklassifizierungsmodellen zu mildern. Zunächst wird die Verzerrung quantitativ in zwei Datensätzen - dem Dollar Street Dataset und ImageNet - dargestellt, indem Bilder mit Standortinformationen verwendet werden. Anschließend werden verschiedene Methoden vorgestellt, die eingesetzt werden können, um diese Verzerrung zu reduzieren. Schließlich wird die Wirksamkeit der verschiedenen Techniken auf die Robustheit der Modelle gegenüber Standorten der Bilder analysiert.
Die Autoren untersuchen zunächst die Leistung von VGG16 und ResNet-18 Modellen, die auf ImageNet vortrainiert sind, auf den beiden Datensätzen. Sie zeigen, dass diese Modelle eine deutliche Leistungslücke zwischen Bildern aus Haushalten mit hohem und niedrigem Einkommen sowie zwischen Bildern aus westlichen und nicht-westlichen Regionen aufweisen.
Um diese Verzerrung zu mildern, testen die Autoren drei Methoden: Gewichtung des Verlusts nach Einkommen, Stichprobennahme zur Angleichung der Einkommensverteilung und den Einsatz von Focal Loss, um auf schwierige Beispiele stärker zu fokussieren. Zusätzlich untersuchen sie den Ansatz der adversariellen diskriminativen Domänenanpassung (ADDA).
Die Ergebnisse zeigen, dass die Methoden auf dem Dollar Street Datensatz vielversprechend sind, um die Leistungsunterschiede zwischen Einkommensgruppen zu reduzieren. Insbesondere Focal Loss mit γ = 5 liefert gute Ergebnisse. Auf dem ImageNet Datensatz sind die Verbesserungen weniger deutlich, aber Focal Loss zeigt auch hier positive Auswirkungen.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania