Die Autoren stellen einen Rahmen namens "Calibrate-Extrapolate" vor, um die Häufigkeit bestimmter Klassen in unmarkierten Datensätzen zu schätzen, wenn ein vorgefertigter Klassifikator verwendet wird.
In der Kalibrierungsphase wird eine kleine Stichprobe des Basisdatensatzes manuell annotiert, um eine Kalibrationskurve zu schätzen, die die Ausgaben des Klassifikators in kalibrierte Wahrscheinlichkeiten umwandelt. In der Extrapolationsphase werden dann verschiedene Annahmen über die Stabilität der Kalibrierungskurve oder der klassenspezifischen Dichten getroffen, um die Prävalenz im Zieldatensatz zu schätzen.
Die Autoren zeigen anhand von Simulationen, dass die Wahl der richtigen Stabilitätsannahme und die Vorhersagekraft des Klassifikators entscheidend für die Genauigkeit der Schätzungen sind. Sie wenden den Rahmen dann an, um die Prävalenz von toxischen Kommentaren auf Reddit, Twitter/X und YouTube über ein Jahr hinweg zu schätzen.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Siqi Wu,Paul... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.09329.pdfשאלות מעמיקות