Die Autoren stellen einen Rahmen namens "Calibrate-Extrapolate" vor, um die Häufigkeit bestimmter Klassen in unmarkierten Datensätzen zu schätzen, wenn ein vorgefertigter Klassifikator verwendet wird.
In der Kalibrierungsphase wird eine kleine Stichprobe des Basisdatensatzes manuell annotiert, um eine Kalibrationskurve zu schätzen, die die Ausgaben des Klassifikators in kalibrierte Wahrscheinlichkeiten umwandelt. In der Extrapolationsphase werden dann verschiedene Annahmen über die Stabilität der Kalibrierungskurve oder der klassenspezifischen Dichten getroffen, um die Prävalenz im Zieldatensatz zu schätzen.
Die Autoren zeigen anhand von Simulationen, dass die Wahl der richtigen Stabilitätsannahme und die Vorhersagekraft des Klassifikators entscheidend für die Genauigkeit der Schätzungen sind. Sie wenden den Rahmen dann an, um die Prävalenz von toxischen Kommentaren auf Reddit, Twitter/X und YouTube über ein Jahr hinweg zu schätzen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Siqi Wu,Paul... alle arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.09329.pdfDomande più approfondite