Core Concepts
Der Artikel präsentiert einen neuen mehrsprachigen Trainingsdatensatz von Sätzen, die manuell für Sentiment annotiert wurden, und zeigt, wie die zusätzliche Vorverarbeitung eines mehrsprachigen Transformationsmodells auf parlamentarischen Daten dessen Leistung bei der Sentiment-Erkennung in parlamentarischen Verhandlungen deutlich verbessern kann.
Abstract
Der Artikel präsentiert einen neuen mehrsprachigen Trainingsdatensatz von Sätzen, die manuell für Sentiment annotiert wurden. Der Datensatz umfasst Sätze aus den parlamentarischen Verhandlungen von sieben europäischen Ländern (Bosnien-Herzegowina, Kroatien, Tschechische Republik, Serbien, Slowakei, Slowenien und Vereinigtes Königreich) in sieben Sprachen (Bosnisch, Kroatisch, Tschechisch, Englisch, Serbisch, Slowakisch und Slowenisch).
Die Autoren führen eine Reihe von Experimenten durch, um zu zeigen, dass:
Die zusätzliche Vorverarbeitung eines mehrsprachigen Transformationsmodells (XLM-R-parla) auf parlamentarischen Daten dessen Leistung bei der Sentiment-Erkennung in parlamentarischen Verhandlungen deutlich verbessert.
Große 561-Millionen-Parameter-Mehrsprachmodelle deutlich besser abschneiden als Modelle mit der Hälfte der Parameter.
Mehrsprachmodelle auch auf ungesehenen Sprachen sehr gut funktionieren.
Selbst wenn sprachspezifische Trainingsdaten für die zu verarbeitenden parlamentarischen Verhandlungen vorhanden sind, ein Mehrsprachmodell, das auf der vierfachen Datenmenge aus anderen Sprachen trainiert wurde, die Ergebnisse für das Ziel-Parlament deutlich verbessert.
Der Datensatz ist über das CLARIN.SI-Repository verfügbar und kann unter der CC-BY-SA 4.0-Lizenz genutzt werden.
Stats
Die Verteilung der Drei-Klassen-Labels nach der Bereinigung über die Datensätze hinweg ist wie folgt:
Negativ: 8232
Neutral: 6691
Positiv: 3277
Quotes
Keine relevanten Zitate identifiziert.