Der Artikel befasst sich mit der Erkennung von Propagandatechniken in code-gewechselten Social-Media-Texten, einer Herausforderung, die bisher wenig erforscht wurde. Die Autoren formulieren diese Aufgabe als einen neuartigen NLP-Task und erstellen einen Datensatz von 1.030 code-gewechselten Texten, die mit 20 Propagandatechniken auf Fragmentebene annotiert sind.
Die Autoren führen verschiedene Experimente durch, um die Leistung unterschiedlicher Modellklassen bei dieser Aufgabe zu bewerten. Sie stellen fest, dass es wichtig ist, die Mehrsprachigkeit direkt zu modellieren, anstatt eine Übersetzung zu verwenden, und die richtige Feinabstimmungsstrategie zu verwenden.
Die Ergebnisse zeigen, dass das XLM-RoBERTa-Modell, das speziell auf Roman-Urdu-Datensätzen feinabgestimmt wurde, die beste Leistung erbringt. Außerdem zeigt der GPT-3.5-Turbo-Sprachmodell-Ansatz in einem wenig-Schuss-Szenario vielversprechende Ergebnisse, insbesondere bei unterrepräsentierten Klassen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Muhammad Uma... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2305.14534.pdfDeeper Inquiries