Core Concepts
Die AUC-Bewertung kann ein irreführendes Bild der tatsächlichen Leistung von Modellen in der Anwendung liefern, da sie die Herausforderungen der Modellkalibrierung vernachlässigt.
Abstract
Die Studie untersucht, wie die AUC-Bewertung (Area Under Curve) die tatsächliche Leistung von Modellen in der Anwendung unterschätzen kann. Die Autoren zeigen, dass die AUC-Bewertung eine theoretische und optimistische Sicht auf die Modellleistung liefert, die nicht unbedingt mit der tatsächlichen Genauigkeit in der Anwendung übereinstimmt.
Die Hauptgründe dafür sind:
Die Diversität der Modelle und Datensätze erschwert die Kalibrierung der Modelle, um sie für den Einsatz in der Praxis vorzubereiten.
Die Verteilung der Modellscores beeinflusst die Eignung der Kalibrierung. Modelle mit ausgewogeneren Scoreverteilungen lassen sich tendenziell besser kalibrieren.
Die Autoren testen verschiedene Kalibrierungsmethoden und -datensätze und zeigen, dass die AUC-Bewertung die tatsächliche Genauigkeit der Modelle oft deutlich überschätzt. Sie argumentieren, dass die AUC daher nicht als alleiniges Maß für die Modellbewertung und das Benchmarking verwendet werden sollte, insbesondere wenn die Modelle und Daten divers sind.
Stats
Die AUC-Bewertung kann ein irreführendes Bild der tatsächlichen Leistung von Modellen in der Anwendung liefern.
Modelle mit ausgewogeneren Scoreverteilungen lassen sich tendenziell besser kalibrieren.
Die Kalibrierung der Modelle ist eine Herausforderung, die von der Diversität der Modelle und Datensätze abhängt.
Quotes
Keine relevanten Zitate gefunden.