Die Autoren stellen einen Rahmen namens "Calibrate-Extrapolate" vor, um die Häufigkeit bestimmter Klassen in unmarkierten Datensätzen zu schätzen, wenn ein vorgefertigter Klassifikator verwendet wird.
In der Kalibrierungsphase wird eine kleine Stichprobe des Basisdatensatzes manuell annotiert, um eine Kalibrationskurve zu schätzen, die die Ausgaben des Klassifikators in kalibrierte Wahrscheinlichkeiten umwandelt. In der Extrapolationsphase werden dann verschiedene Annahmen über die Stabilität der Kalibrierungskurve oder der klassenspezifischen Dichten getroffen, um die Prävalenz im Zieldatensatz zu schätzen.
Die Autoren zeigen anhand von Simulationen, dass die Wahl der richtigen Stabilitätsannahme und die Vorhersagekraft des Klassifikators entscheidend für die Genauigkeit der Schätzungen sind. Sie wenden den Rahmen dann an, um die Prävalenz von toxischen Kommentaren auf Reddit, Twitter/X und YouTube über ein Jahr hinweg zu schätzen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Siqi Wu,Paul... klokken arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.09329.pdfDypere Spørsmål