Conceitos essenciais
Die Autoren schlagen eine neuartige Verlustfunktion namens Gradient-Aware Logit Adjustment (GALA) vor, um das Ungleichgewicht der Gradienten in Klassifikatoren mit langer Schwanzverteilung auszugleichen. Zusätzlich führen sie eine einfache Nachbearbeitungsstrategie ein, um verbleibende Vorhersageverzerrungen weiter zu reduzieren.
Resumo
Die Autoren analysieren, wie Ungleichgewichte in den akkumulierten Gradienten, sowohl im Verhältnis von positiven zu negativen Gradienten als auch in den negativen Gradienten aus verschiedenen Klassen, die Optimierung von Klassifikatoren beeinträchtigen und zu verzerrten Modellen führen.
Basierend auf dieser Analyse entwickeln sie die GALA-Verlustfunktion, die theoretisch in der Lage ist, diese beiden Arten von unausgewogenen Gradienten gleichzeitig auszugleichen. Um Vorhersageverzerrungen gegenüber Kopfklassen weiter zu reduzieren, führen sie zusätzlich eine Nachbearbeitungstechnik namens Vorhersage-Rebalancierung ein, die die Vorhersagewahrscheinlichkeiten über die Klassen hinweg direkt normalisiert.
Umfangreiche Experimente auf verschiedenen Benchmark-Datensätzen zeigen die Wirksamkeit dieser beiden Konzepte. Die vorgeschlagene Methode erzielt im Vergleich zu anderen Verfahren überlegene Leistungen.
Estatísticas
Die Gradienten-Verhältnisse (Verhältnis von positiven zu negativen Gradienten) für Schwanzklassen sind bei der Kreuzentropie-Verlustfunktion und EQL deutlich unausgewogener als bei der GALA-Verlustfunktion.
Die negativen Gradienten aus verschiedenen Klassen sind bei der Kreuzentropie-Verlustfunktion und EQL deutlich unausgewogener als bei der GALA-Verlustfunktion.
Die durchschnittliche Ähnlichkeit zwischen einem Schwanzklassen-Vektor und den Merkmalen seiner Klasse ist bei der GALA-Verlustfunktion deutlich höher als bei der Kreuzentropie-Verlustfunktion.
Citações
"Imbalanced gradients distort the classifier in two ways: (i) The imbalanced ratio of positive and negative gradients (called gradient ratio in short) for tail class vectors causes the classifier to identify samples belonging to tail classes as other classes. (ii) For each class vector, negative gradients from different classes are imbalanced. It is the undiscovered devil resulting in the class vector misclassifying other tail class samples as its class."
"Our GALA loss with these two terms could balance both the gradient ratio and the negative gradient from different classes."