toplogo
Giriş Yap

Überprüfung der Konformität von Hassrede-Erkennungsmodellen mit Inhaltsrichtlinien sozialer Medien


Temel Kavramlar
Dieser Artikel untersucht, inwieweit gängige Hassrede-Erkennungsmodelle den Inhaltsrichtlinien von Plattformen wie Facebook entsprechen. Die Autoren erstellen einen Datensatz namens HateModerate, der es ermöglicht, die Leistung der Modelle in Bezug auf die spezifischen Richtlinien zu testen. Die Ergebnisse zeigen, dass die Modelle häufig Fehler bei sowohl hasserfüllten als auch nicht-hasserfüllten Beispielen machen. Durch das Hinzufügen von HateModerate zum Trainingsdatensatz können die Modelle jedoch ihre Konformität mit den Richtlinien deutlich verbessern.
Özet

Der Artikel untersucht die Konformität von Hassrede-Erkennungsmodellen mit den Inhaltsrichtlinien von Plattformen wie Facebook. Zunächst wird der Datensatz HateModerate erstellt, der 7.704 Beispiele für hasserfüllte und nicht-hasserfüllte Inhalte enthält, die den 41 Richtlinien von Facebook für Hassrede entsprechen. Dieser Datensatz wird dann verwendet, um die Leistung gängiger Hassrede-Erkennungsmodelle wie Google Perspective API, OpenAI Moderation API, Facebook RoBERTa und Cardiff NLP RoBERTa zu testen.

Die Ergebnisse zeigen, dass die Modelle häufig Fehler machen, insbesondere bei weniger schwerwiegenden Richtlinien. OpenAIs Modell schneidet am besten ab, während die anderen Modelle hohe Fehlerraten sowohl bei hasserfüllten als auch bei nicht-hasserfüllten Beispielen aufweisen.

Um die Konformität der Modelle mit den Richtlinien zu verbessern, wird das Cardiff NLP Modell mit HateModerate feinabgestimmt. Dadurch lässt sich die Leistung auf HateModerate und dem unabhängigen HateCheck-Datensatz signifikant verbessern, ohne dass die Leistung auf den Originaltestdaten beeinträchtigt wird.

Insgesamt zeigt die Studie, dass die Konformität mit Inhaltsrichtlinien ein wichtiger, aber bisher vernachlässigter Aspekt der Hassrede-Erkennung ist. Der HateModerate-Datensatz bietet eine Möglichkeit, diese Konformität systematisch zu testen und zu verbessern.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

İstatistikler
"Frauen sind Objekte" "Frauen sind die Objekte der Männer" "Schwarze Menschen sollten nicht wie Objekte behandelt werden"
Alıntılar
"Um Nutzer vor einer Flut hasserfüllter Inhalte zu schützen, haben bestehende Arbeiten automatisierte Hassrede-Erkennung untersucht." "Trotz der bestehenden Bemühungen bleibt eine Frage offen: Entsprechen automatisierte Hassrede-Detektoren den Inhaltsrichtlinien sozialer Medien?"

Önemli Bilgiler Şuradan Elde Edildi

by Jiangrui Zhe... : arxiv.org 03-20-2024

https://arxiv.org/pdf/2307.12418.pdf
HateModerate

Daha Derin Sorular

Wie können Plattformen sicherstellen, dass ihre Inhaltsrichtlinien für Hassrede umfassend und eindeutig formuliert sind?

Um sicherzustellen, dass die Inhaltsrichtlinien für Hassrede umfassend und eindeutig formuliert sind, sollten Plattformen mehrere Schritte unternehmen. Zunächst sollten sie eine gründliche Analyse der verschiedenen Arten von Hassrede durchführen, um eine umfassende Liste von Richtlinien zu erstellen. Diese Richtlinien sollten klare Definitionen und Beispiele enthalten, um Missverständnisse zu vermeiden. Darüber hinaus ist es wichtig, regelmäßige Überprüfungen und Aktualisierungen der Richtlinien vorzunehmen, um sicherzustellen, dass sie mit den sich entwickelnden Formen von Hassrede Schritt halten. Plattformen sollten auch Schulungen für Moderatoren und Nutzer anbieten, um das Verständnis für die Richtlinien zu verbessern und die Einhaltung zu fördern. Durch Transparenz und offene Kommunikation können Plattformen das Vertrauen der Nutzer in ihre Inhaltsrichtlinien stärken.

Welche Auswirkungen haben Fehler in der Hassrede-Erkennung auf das Vertrauen und die Zufriedenheit der Nutzer?

Fehler in der Hassrede-Erkennung können erhebliche Auswirkungen auf das Vertrauen und die Zufriedenheit der Nutzer haben. Wenn Hassrede nicht effektiv erkannt und moderiert wird, können sich Nutzer auf der Plattform unsicher fühlen und möglicherweise Opfer von Belästigung oder Diskriminierung werden. Dies kann zu einem negativen Nutzungserlebnis führen und das Vertrauen der Nutzer in die Plattform beeinträchtigen. Darüber hinaus können Fehler in der Hassrede-Erkennung dazu führen, dass bestimmte Gruppen von Nutzern sich nicht ausreichend geschützt fühlen und die Plattform als unsicher oder unzuverlässig empfinden. Dies kann zu einem Rückgang der Nutzerzahlen, einer negativen öffentlichen Wahrnehmung und rechtlichen Konsequenzen für die Plattform führen.

Wie können Hassrede-Erkennungsmodelle so entwickelt werden, dass sie nicht nur die Richtlinien erfüllen, sondern auch die Nuancen und Kontextabhängigkeit von Sprache berücksichtigen?

Um Hassrede-Erkennungsmodelle zu entwickeln, die die Nuancen und Kontextabhängigkeit von Sprache berücksichtigen, sollten Entwickler mehrere Ansätze verfolgen. Zunächst ist es wichtig, hochwertige Trainingsdaten zu verwenden, die eine Vielzahl von Sprachstilen, Kontexten und Ausdrucksformen abdecken. Durch die Integration von diversen Datenquellen können Modelle besser auf die Vielfalt der Sprache vorbereitet werden. Darüber hinaus sollten Entwickler fortschrittliche NLP-Techniken wie Transfer Learning und Pretraining nutzen, um Modelle zu trainieren, die ein tiefes Verständnis für die Bedeutung und den Kontext von Texten entwickeln können. Die Implementierung von Erklärbarkeitstechniken kann auch dazu beitragen, dass Modelle transparenter und nachvollziehbarer werden, was es ermöglicht, ihre Entscheidungen besser zu verstehen und zu überprüfen. Durch kontinuierliches Training und Feinabstimmung können Hassrede-Erkennungsmodelle kontinuierlich verbessert werden, um die Komplexität und Vielfalt der Sprache besser zu erfassen.
0
star