toplogo
Sign In

OffLanDat: Eine Community-basierte implizite offensive Sprachdatensammlung generiert durch große Sprachmodelle durch Prompt-Engineering


Core Concepts
Die Forschung präsentiert OffLanDat, eine Community-basierte implizite offensive Sprachdatensammlung, die durch ChatGPT generiert wurde und Daten für 38 verschiedene Zielgruppen enthält.
Abstract
Abstract: Offensive Sprache auf sozialen Medien hat negative Auswirkungen auf die Gesellschaft. Herausforderungen bei der Erfassung impliziter offensiver Inhalte. Vorstellung der OffLanDat-Datensammlung durch ChatGPT. Methoden: Generierung von Daten mit ChatGPT für implizite offensive Sprache. Kategorisierung in 7 Kategorien und 38 Zielgruppen. Vergleich zwischen menschlicher und ChatGPT-Annotation. Ergebnisse und Diskussion: Vergleich der Klassifizierungsergebnisse verschiedener Modelle. BERT erreichte die höchste F1- und Recall-Werte. Diskussion über die Effektivität von ChatGPT bei der Annotation. Schlussfolgerung: OffLanDat bietet eine innovative Lösung für die Erfassung impliziter offensiver Sprache. Zukünftige Arbeit umfasst die Erweiterung der Datensammlung um neue Kategorien und Zielgruppen.
Stats
In dieser Forschung präsentieren wir OffLanDat, eine Community-basierte offensive Sprachdatensammlung. Die Datensammlung besteht aus 8270 Texten, von denen 6616 als 'offensiv' und 1654 als 'nicht offensiv' gekennzeichnet sind.
Quotes
"Die Datensammlung besteht aus 8270 Texten, von denen 6616 als 'offensiv' und 1654 als 'nicht offensiv' gekennzeichnet sind."

Key Insights Distilled From

by Amit Das,Mos... at arxiv.org 03-06-2024

https://arxiv.org/pdf/2403.02472.pdf
OffLanDat

Deeper Inquiries

Wie kann die Effektivität von ChatGPT bei der Erkennung impliziter offensiver Sprache weiter verbessert werden?

Um die Effektivität von ChatGPT bei der Erkennung impliziter offensiver Sprache zu verbessern, könnten mehr spezifische und kontextbezogene Prompts verwendet werden. Indem die Prompts präziser formuliert werden, kann ChatGPT besser darauf trainiert werden, implizite Formen von beleidigender Sprache zu erkennen. Darüber hinaus könnte eine kontinuierliche Feinabstimmung des Modells mit einer Vielzahl von Beispielen für implizite offensichtliche Sprache die Leistungsfähigkeit von ChatGPT verbessern. Es wäre auch hilfreich, das Modell mit einer größeren Vielfalt an Daten zu trainieren, um seine Fähigkeit zu verbessern, subtile Nuancen und Kontexte zu erfassen, die implizite offensichtliche Sprache kennzeichnen.

Welche ethischen Überlegungen sind bei der Verwendung von großen Sprachmodellen für die Generierung von Daten zu berücksichtigen?

Bei der Verwendung von großen Sprachmodellen wie ChatGPT für die Generierung von Daten zur Erkennung impliziter offensiver Sprache sind mehrere ethische Überlegungen zu berücksichtigen. Zunächst ist es wichtig, sicherzustellen, dass die generierten Daten ethisch unbedenklich sind und keine schädlichen oder diskriminierenden Inhalte enthalten. Darüber hinaus sollte die Verwendung von großen Sprachmodellen transparent sein, und es sollte klar kommuniziert werden, wie die generierten Daten verwendet werden. Datenschutz und der Schutz sensibler Informationen sind ebenfalls wichtige ethische Aspekte, die berücksichtigt werden müssen. Es ist entscheidend, sicherzustellen, dass die Verwendung von großen Sprachmodellen für die Generierung von Daten ethisch vertretbar ist und keine negativen Auswirkungen auf die Gesellschaft hat.

Inwiefern könnte die Erfassung impliziter offensiver Sprache das Verständnis von Online-Missbrauch verbessern?

Die Erfassung impliziter offensiver Sprache kann das Verständnis von Online-Missbrauch verbessern, indem sie dazu beiträgt, subtilere Formen von beleidigender Sprache zu identifizieren, die nicht offensichtlich sind. Durch die Erfassung impliziter offensiver Sprache können Forscher und Experten ein umfassenderes Bild davon erhalten, wie Missbrauch online stattfindet und wie er sich manifestiert. Dies kann dazu beitragen, effektivere Maßnahmen zur Bekämpfung von Online-Missbrauch zu entwickeln und die Sicherheit und das Wohlbefinden der Nutzer zu verbessern. Darüber hinaus kann die Erfassung impliziter offensiver Sprache dazu beitragen, die Sensibilität und das Bewusstsein für die verschiedenen Formen von Missbrauch zu schärfen und die Entwicklung von präventiven Maßnahmen zu fördern.
0