toplogo
Sign In

Evaluierung der Erkennung von Hassrede auf dem nigerianischen Twitter unter Verwendung repräsentativer Daten


Core Concepts
Die Leistung von Hassrede-Erkennungsmodellen, die auf verzerrten Datensätzen entwickelt wurden, überschätzt die Leistung in realen Umgebungen erheblich. Domänenadaptives Vortraining und Feinabstimmung spielen eine Schlüsselrolle, um die Leistung der Hassrede-Erkennung in ressourcenarmen Kontexten zu maximieren.
Abstract
Die Studie führt ein neues Hassrede-Erkennungsdatensatz namens NAIJAHATE ein, der eine repräsentative Stichprobe nigerianischer Tweets enthält. Die Autoren zeigen, dass die Leistung von Hassrede-Erkennungsmodellen, die auf verzerrten Datensätzen entwickelt wurden, die Leistung in realen Umgebungen erheblich überschätzt (83-90% gegenüber 34% durchschnittliche Präzision). Sie stellen fest, dass domänenadaptives Vortraining und Feinabstimmung zu großen Leistungssteigerungen bei der Hassrede-Erkennung auf repräsentativen Evaluierungsdaten im Vergleich zu US-amerikanischen und nigerianischen Baselines führen. Darüber hinaus zeigen sie, dass die Feinabstimmung auf linguistisch vielfältiger Hassrede, die durch aktives Lernen gewonnen wurde, die Leistung in realen Umgebungen im Vergleich zu einem geschichteten Stichprobenansatz deutlich verbessert. Schließlich diskutieren sie den Kosten-Recall-Kompromiss bei der Moderation und zeigen, dass das Überprüfen von etwa 1% aller als hasserfüllt gekennzeichneten Tweets es ermöglicht, bis zu 60% der gesamten hasserfüllten Inhalte auf dem nigerianischen Twitter zu moderieren, was die Einschränkungen eines menschlichen Moderationsansatzes bei weiterem Wachstum der sozialen Mediennutzung verdeutlicht.
Stats
Etwa 0,5% der Beiträge auf US-Twitter sind hasserfüllt. Die Prävalenz von Hassrede auf dem nigerianischen Twitter beträgt etwa 0,16% und 1,6% für hasserfüllte und beleidigende Inhalte.
Quotes
"Hassrede ist jede Art von Kommunikation in Sprache, Schrift oder Verhalten, die auf der Grundlage der Religion, Ethnie, Nationalität, Rasse, Farbe, Abstammung, des Geschlechts oder anderer Identitätsfaktoren eine Person oder Gruppe angreift oder abwertende oder diskriminierende Sprache verwendet." "Hassrede-Erkennung ist eine Herausforderung, da hasserfüllte Inhalte selten sind - etwa 0,5% der Beiträge auf US-Twitter sind hasserfüllt - was die Erstellung repräsentativer annotierter Datensätze zu einem angemessenen Preis erschwert."

Key Insights Distilled From

by Manuel Tonne... at arxiv.org 03-29-2024

https://arxiv.org/pdf/2403.19260.pdf
NaijaHate

Deeper Inquiries

Wie könnte man die Leistung der Hassrede-Erkennung auf dem nigerianischen Twitter weiter verbessern, z.B. durch den Einsatz von Netzwerkmerkmalen oder synthetischen Daten?

Um die Leistung der Hassrede-Erkennung auf dem nigerianischen Twitter weiter zu verbessern, könnten verschiedene Ansätze verfolgt werden. Netzwerkmerkmale: Durch die Integration von Netzwerkmerkmalen in die Analyse könnte die Erkennung von Hassrede verbessert werden. Netzwerkfunktionen wie Verbindungen zwischen Benutzern, Interaktionen und Gruppenzugehörigkeiten könnten genutzt werden, um Muster von Hassrede und deren Verbreitung zu identifizieren. Synthetische Daten: Die Verwendung von synthetischen Daten zur Erweiterung des Trainingsdatensatzes könnte die Leistung der Modelle verbessern. Durch die Generierung von künstlichen Daten, die verschiedene Arten von Hassrede abdecken, kann die Vielfalt und Repräsentativität des Datensatzes erhöht werden, was zu robusteren Modellen führt.

Wie lässt sich die Moderation von Hassrede auf größeren Plattformen skalieren, wenn selbst das Überprüfen von 1% der Beiträge erhebliche Kosten verursacht?

Die Skalierung der Hassrede-Moderation auf größeren Plattformen, insbesondere wenn das Überprüfen von 1% der Beiträge hohe Kosten verursacht, erfordert eine Kombination aus automatisierten und manuellen Ansätzen: Automatisierte Moderation: Durch den Einsatz von KI-gestützten Moderationswerkzeugen können Beiträge automatisch geflaggt und priorisiert werden. Dies reduziert den manuellen Überprüfungsaufwand erheblich und ermöglicht eine effizientere Moderation. Kontinuierliche Verbesserung der Modelle: Durch regelmäßiges Feintuning der Modelle mit neuen Daten und Feedbackschleifen können die KI-Modelle präziser und effektiver in der Hassrede-Erkennung werden, was die Kosten für die manuelle Überprüfung senken kann. Crowdsourcing und Community-Beteiligung: Plattformen können auf die Community zurückgreifen, um bei der Moderation zu helfen. Durch Crowdsourcing-Initiativen können Nutzer:innen dabei unterstützt werden, problematische Inhalte zu melden und zu kennzeichnen, was die Effizienz der Moderation erhöht.

Welche Auswirkungen könnte die Verbreitung von Hassrede in sozialen Medien auf den sozialen Zusammenhalt und die politische Stabilität in Ländern des Globalen Südens haben?

Die Verbreitung von Hassrede in sozialen Medien kann erhebliche Auswirkungen auf den sozialen Zusammenhalt und die politische Stabilität in Ländern des Globalen Südens haben: Polarisierung der Gesellschaft: Hassrede kann zu einer Polarisierung der Gesellschaft führen, indem sie Gruppen gegeneinander aufbringt und das Vertrauen zwischen ihnen untergräbt. Zunahme von Konflikten: Die Verbreitung von Hassrede kann zu sozialen Unruhen und Konflikten führen, insbesondere wenn sie ethnische oder religiöse Spannungen schürt. Einschränkung der Meinungsfreiheit: In einigen Fällen kann die Bekämpfung von Hassrede zu Einschränkungen der Meinungsfreiheit führen, was die demokratischen Prinzipien gefährden kann. Schwächung der Regierungsführung: Wenn Hassrede politische Instabilität fördert, kann dies die Regierungsführung schwächen und die Stabilität des Landes gefährden. Die Bekämpfung von Hassrede in sozialen Medien ist daher von entscheidender Bedeutung, um den sozialen Zusammenhalt zu stärken und die politische Stabilität in Ländern des Globalen Südens zu erhalten.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star