Core Concepts
Gruppenorientierte Priors ermöglichen es neuronalen Netzen, sich an Subpopulationsverschiebungen in den Daten anzupassen und eine hohe Leistung über alle Gruppen hinweg zu erzielen.
Abstract
Der Artikel befasst sich mit dem Problem der Subpopulationsverschiebungen in Datensätzen, bei denen sich die Verteilung der Daten zwischen Trainings- und Testphase unterscheidet. Dies kann zu einer deutlich schlechteren Leistung auf bestimmten Untergruppen führen, selbst wenn die durchschnittliche Testgenauigkeit hoch ist.
Um dieses Problem anzugehen, präsentieren die Autoren einen Ansatz, der auf Bayes'scher Inferenz basiert. Sie entwickeln eine Familie von gruppenorientierten Prior-Verteilungen über die Parameter neuronaler Netze, die explizit Modelle begünstigen, die eine hohe Robustheit gegenüber Subpopulationsverschiebungen aufweisen.
Als konkrete Umsetzung eines solchen gruppenorientierten Priors konstruieren die Autoren eine einfache, skalierbare Variante, die nur einen kleinen Satz gruppenetikettierten Validierungsdaten erfordert. Sie zeigen, dass das Finetuning eines zuvor trainierten Modells mit diesem Prior zu state-of-the-art-Ergebnissen auf gängigen Benchmarks führt. Sogar wenn nur die letzte Schicht des Netzwerks mit dem gruppenorientierten Prior nachtrainiert wird, erreichen sie wettbewerbsfähige Ergebnisse.
Die Autoren diskutieren auch, wie dieser probabilistische Ansatz zur Gruppenrobustheit neue Möglichkeiten eröffnet, um Bayes'sche Inferenzmethoden zur Verbesserung der Generalisierung und Unsicherheitsquantifizierung einzusetzen.
Stats
Der Waterbirds-Datensatz besteht zu 73% aus der Mehrheitsgruppe (Wasservögel auf Wasser), 22% sind Landvögel auf Land und eine stark ausgeprägte Minderheitsgruppe von 1% Landvögel auf Wasser sowie 4% Wasservögel auf Land.
Im CelebA-Datensatz sind 94% der Bilder mit der Blond-Etikette weiblich.
Im MultiNLI-Datensatz ist das Auftreten von Verneinungswörtern (z.B. "nie") in dem zweiten Satz korreliert mit der "Widerspruch"-Klasse.
Quotes
"Developing methods that allow machine learning models to better generalize to such shifts is crucial for safe deployment in real-world settings."
"Group aware-priors are conceptually simple, complementary to existing approaches, such as attribute pseudo labeling and data reweighting, and open up promising new avenues for harnessing Bayesian inference to enable robustness to subpopulation shifts."