toplogo
Sign In

Erstellung und Bewertung eines mehrsprachigen Datensatzes für die Generierung von Gegennarrativen gegen Hassrede


Core Concepts
Dieser Artikel präsentiert CONAN-EUS, einen neuen mehrsprachigen Datensatz für die Generierung von Gegennarrativen gegen Hassrede in Baskisch und Spanisch. Der Datensatz wurde durch maschinelle Übersetzung und professionelle Nachbearbeitung aus dem englischen CONAN-Datensatz erstellt. Die Experimente zeigen, dass die Qualität der generierten Gegennarrative von der Verwendung der nachbearbeiteten Trainingsdaten profitiert, im Vergleich zur alleinigen Nutzung von maschinell übersetzten Daten.
Abstract
Der Artikel beschreibt die Erstellung und Evaluierung des CONAN-EUS-Datensatzes für die Generierung von Gegennarrativen gegen Hassrede in Baskisch und Spanisch. Zunächst wird der Hintergrund zu Hassrede und Gegennarrativen erläutert. Trotz des zunehmenden Auftretens von Hassrede online, ist die Forschung zur automatischen Generierung von Gegennarrativen bisher relativ begrenzt und hauptsächlich auf Englisch fokussiert. Der CONAN-EUS-Datensatz wurde durch maschinelle Übersetzung des englischen CONAN-Datensatzes ins Baskische und Spanische erstellt. Anschließend wurden die maschinell übersetzten Texte von professionellen Übersetzern nachbearbeitet. Insgesamt umfasst der Datensatz 6654 Hassrede-Gegennarrative-Paare pro Sprache, davon jeweils die Hälfte maschinell übersetzt und die andere Hälfte manuell nachbearbeitet. Die Experimente mit dem mehrsprachigen Encoder-Decoder-Modell mT5 zeigen, dass die Qualität der generierten Gegennarrative deutlich von den manuell nachbearbeiteten Trainingsdaten profitiert, im Vergleich zur alleinigen Nutzung der maschinell übersetzten Daten. Dies wird sowohl durch automatische Evaluationsmetriken als auch durch eine manuelle qualitative Bewertung bestätigt. Darüber hinaus zeigen die Experimente, dass die mehrsprachige Datenerweiterung die Ergebnisse für strukturell ähnliche Sprachen wie Englisch und Spanisch verbessert, während sie für Baskisch, eine isolierte Sprache, nachteilig ist. Ähnliche Beobachtungen werden auch in den nullsprachigen, crosslingualen Evaluationen gemacht, wo der Modell-Transfer-Ansatz für Spanisch besser abschneidet als der Daten-Transfer-Ansatz, während es für Baskisch umgekehrt ist.
Stats
"Muslime sind Kriminelle: Sie vergewaltigen, versklaven und ermorden Menschen. Der Islam ist eher eine Anbetung als eine Religion und wir haben nichts mit ihnen gemeinsam." "Britische Muslime spenden pro Kopf mehr an Wohltätigkeit als alle anderen Glaubensgruppen [Link zu MEND-Statistiken und/oder Beispiel einer großen Wohltätigkeitsspende einer Moschee], also fällt es mir schwer zu sehen, was das Problem mit Moscheen ist, in denen diese Gelder hauptsächlich gesammelt werden."
Quotes
"Muslime sollten aus unserem Land entfernt werden, weil sie von niemandem akzeptiert werden." "Warum sollte man Muslimen nicht erlauben, hier Moscheen zu bauen? Ich dachte, dieses Land glaubte daran, Menschen die Freiheit zu geben, andere Religionen als das Christentum auszuüben?"

Key Insights Distilled From

by Jaione Bengo... at arxiv.org 03-15-2024

https://arxiv.org/pdf/2403.09159.pdf
Basque and Spanish Counter Narrative Generation

Deeper Inquiries

Wie könnte man den Datensatz CONAN-EUS erweitern, um die Generierung von Gegennarrativen in anderen Sprachen zu unterstützen?

Um den Datensatz CONAN-EUS zu erweitern und die Generierung von Gegennarrativen in anderen Sprachen zu unterstützen, könnten folgende Schritte unternommen werden: Automatische Übersetzung und Post-Bearbeitung: Ähnlich wie bei der Erstellung des aktuellen Datensatzes könnten weitere Sprachen durch automatische Übersetzung der vorhandenen Daten in die gewünschte Sprache und anschließender manueller Post-Bearbeitung durch Muttersprachler hinzugefügt werden. Einbindung von Experten: Experten in den jeweiligen Sprachen könnten in den Prozess einbezogen werden, um hochwertige Gegennarrative zu erstellen und zu überprüfen. Crowdsourcing: Durch Crowdsourcing könnten Beiträge von Menschen in verschiedenen Sprachen gesammelt werden, um eine Vielzahl von Gegennarrativen in verschiedenen Sprachen zu erhalten.

Welche Ansätze könnten entwickelt werden, um die Qualität der generierten Gegennarrative weiter zu verbessern, insbesondere für weniger ressourcenreiche Sprachen wie Baskisch?

Um die Qualität der generierten Gegennarrative zu verbessern, insbesondere für weniger ressourcenreiche Sprachen wie Baskisch, könnten folgende Ansätze entwickelt werden: Erstellung von spezifischen Ressourcen: Durch die Erstellung von spezifischen Ressourcen für weniger ressourcenreiche Sprachen wie Baskisch, z. B. durch die Sammlung von Daten aus verschiedenen Quellen und die Erstellung von speziellen Modellen für diese Sprachen. Transferlernen: Durch die Anwendung von Transferlernen von Modellen, die auf reichhaltigeren Sprachen trainiert wurden, auf weniger ressourcenreiche Sprachen wie Baskisch, um die Qualität der Generierung zu verbessern. Kollaborative Forschung: Zusammenarbeit mit Sprachexperten und Forschern, um maßgeschneiderte Lösungen für die Generierung von Gegennarrativen in weniger ressourcenreichen Sprachen zu entwickeln.

Inwiefern könnten die Erkenntnisse aus dieser Studie auch auf andere Anwendungsfelder übertragen werden, in denen es um die Generierung von Texten in mehreren Sprachen geht?

Die Erkenntnisse aus dieser Studie könnten auf andere Anwendungsfelder übertragen werden, in denen es um die Generierung von Texten in mehreren Sprachen geht, auf folgende Weise: Multilinguale Textgenerierung: Die Methoden und Ansätze, die in dieser Studie zur Generierung von Gegennarrativen in mehreren Sprachen verwendet wurden, könnten auf andere Textgenerierungsaufgaben in verschiedenen Sprachen angewendet werden. Crosslinguale Übertragung: Die Untersuchung von Daten- und Modelltransfer für die Generierung von Texten in verschiedenen Sprachen könnte auf andere Bereiche übertragen werden, in denen crosslinguale Textgenerierung erforderlich ist. Qualitätsverbesserung: Die Ansätze zur Verbesserung der Qualität der generierten Gegennarrative könnten auch in anderen Anwendungsfeldern genutzt werden, um die Qualität von Textgenerierungssystemen in verschiedenen Sprachen zu steigern.
0