Kernkonzepte
Vertrauensschätzungen und OOD-Erkennungsmethoden können die Vorhersage von Fehlern beeinträchtigen.
Zusammenfassung
Die Analyse untersucht die Auswirkungen von Vertrauensschätzungen auf die Vorhersage von Fehlern in kritischen Anwendungen. Es wird gezeigt, dass beliebte Kalibrierungs- und OOD-Erkennungsmethoden die Fehlererkennungsleistung beeinträchtigen können. Kalibrierungsmethoden wie Mixup, LS, Focal und Lp-Norm verbessern die Kalibrierung, verringern jedoch die Diskriminierungsfähigkeit. OOD-Erkennungsmethoden wie ODIN, Energy, ReAct und MLogit führen zu einer schlechteren Fehlererkennungsleistung. Die Bayes'schen optimalen Ablehnungsregeln für Fehlererkennung und OOD-Erkennung weisen eine Missabstimmung auf. Die Ergebnisse zeigen, dass eine gute Kalibrierung und Diskriminierung notwendig sind, um genaue probabilistische Schätzungen zu erzielen.
Experimentelle Einrichtung
Datensätze: CIFAR-10, CIFAR-100, ImageNet
Netzwerkarchitekturen: PreAct-ResNet110, WideResNet, DenseNet, ResNet-18, ResNet-50
Bewertungsmetriken: AURC, E-AURC, AUROC, FPR95, AUPR-S, AUPR-E
Evaluierung von Kalibrierungs- und OOD-Erkennungsmethoden
Ergebnisse
Kalibrierungsmethoden verbessern die Kalibrierung, verringern jedoch die Diskriminierung.
OOD-Erkennungsmethoden führen zu einer schlechteren Fehlererkennungsleistung.
Die Bayes'schen optimalen Ablehnungsregeln für Fehlererkennung und OOD-Erkennung weisen eine Missabstimmung auf.
Statistiken
"In recent years, there has been a surge of research focused on alleviating the overconfidence problem of modern DNNs"
"On CIFAR-100, with focal loss, the ECE (%) can be reduced from 14.98 to 5.66 for ResNet110"
"ODIN has 79.56% AUROC (↑), which is 5.35% lower than that of baseline"
Zitate
"Popular calibration methods can harm failure prediction."
"Popular OOD detection methods can harm failure prediction."