Core Concepts
Vertrauensschätzungen und OOD-Erkennungsmethoden können die Vorhersage von Fehlern beeinträchtigen.
Abstract
Die Analyse untersucht die Auswirkungen von Vertrauensschätzungen auf die Vorhersage von Fehlern in kritischen Anwendungen. Es wird gezeigt, dass beliebte Kalibrierungs- und OOD-Erkennungsmethoden die Fehlererkennungsleistung beeinträchtigen können. Kalibrierungsmethoden wie Mixup, LS, Focal und Lp-Norm verbessern die Kalibrierung, verringern jedoch die Diskriminierungsfähigkeit. OOD-Erkennungsmethoden wie ODIN, Energy, ReAct und MLogit führen zu einer schlechteren Fehlererkennungsleistung. Die Bayes'schen optimalen Ablehnungsregeln für Fehlererkennung und OOD-Erkennung weisen eine Missabstimmung auf. Die Ergebnisse zeigen, dass eine gute Kalibrierung und Diskriminierung notwendig sind, um genaue probabilistische Schätzungen zu erzielen.
Experimentelle Einrichtung
- Datensätze: CIFAR-10, CIFAR-100, ImageNet
- Netzwerkarchitekturen: PreAct-ResNet110, WideResNet, DenseNet, ResNet-18, ResNet-50
- Bewertungsmetriken: AURC, E-AURC, AUROC, FPR95, AUPR-S, AUPR-E
- Evaluierung von Kalibrierungs- und OOD-Erkennungsmethoden
Ergebnisse
- Kalibrierungsmethoden verbessern die Kalibrierung, verringern jedoch die Diskriminierung.
- OOD-Erkennungsmethoden führen zu einer schlechteren Fehlererkennungsleistung.
- Die Bayes'schen optimalen Ablehnungsregeln für Fehlererkennung und OOD-Erkennung weisen eine Missabstimmung auf.
Stats
"In recent years, there has been a surge of research focused on alleviating the overconfidence problem of modern DNNs"
"On CIFAR-100, with focal loss, the ECE (%) can be reduced from 14.98 to 5.66 for ResNet110"
"ODIN has 79.56% AUROC (↑), which is 5.35% lower than that of baseline"
Quotes
"Popular calibration methods can harm failure prediction."
"Popular OOD detection methods can harm failure prediction."