Die Studie untersucht die Auswirkungen von Labelrauschen in den Trainingsdaten auf die Leistung von 20 State-of-the-Art-Methoden zur Erkennung von Out-of-Distribution-Samples. Die Experimente zeigen, dass selbst bei geringem Rauschen (9% falsche Labels) die Leistung der Detektoren deutlich abnimmt. Insbesondere haben die Methoden Schwierigkeiten, falsch klassifizierte In-Distribution-Samples von tatsächlichen Out-of-Distribution-Samples zu unterscheiden. Dieser Effekt ist bei synthetischem, gleichverteiltem Rauschen am stärksten ausgeprägt. Methoden, die auf Distanzmaßen in Merkmalsräumen basieren, schneiden im Vergleich besser ab als Ansätze, die sich auf Logits oder Wahrscheinlichkeiten stützen. Darüber hinaus zeigt sich, dass die Verwendung eines sauberen Validierungsdatensatzes für die Hyperparameteroptimierung nicht immer von Vorteil ist - in manchen Fällen liefert der verrauschte Trainingsdatensatz bessere Ergebnisse.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Galadrielle ... ที่ arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01775.pdfสอบถามเพิ่มเติม