Eine erklärungsbasierte Datenmenge für eine generalisierbare Erkennung von anstößiger Sprache durch große Sprachmodelle
Die Allgegenwärtigkeit sozialer Medien hat zu einem Bedarf an zuverlässiger und effizienter Erkennung von anstößigen Inhalten geführt, um schädliche Auswirkungen zu begrenzen. Dieser Datensatz namens HateCOT soll die Leistung von Sprachmodellen bei der Erkennung von anstößiger Sprache über verschiedene Datensätze hinweg verbessern.