toplogo
Sign In

Neuer mehrsprachiger Trainingsdatensatz ParlaSent zur Erkennung von Stimmungen in parlamentarischen Verhandlungen


Core Concepts
Der Artikel präsentiert einen neuen mehrsprachigen Trainingsdatensatz von Sätzen, die manuell für Sentiment annotiert wurden, und zeigt, wie die zusätzliche Vorverarbeitung eines mehrsprachigen Transformationsmodells auf parlamentarischen Daten dessen Leistung bei der Sentiment-Erkennung in parlamentarischen Verhandlungen deutlich verbessern kann.
Abstract
Der Artikel präsentiert einen neuen mehrsprachigen Trainingsdatensatz von Sätzen, die manuell für Sentiment annotiert wurden. Der Datensatz umfasst Sätze aus den parlamentarischen Verhandlungen von sieben europäischen Ländern (Bosnien-Herzegowina, Kroatien, Tschechische Republik, Serbien, Slowakei, Slowenien und Vereinigtes Königreich) in sieben Sprachen (Bosnisch, Kroatisch, Tschechisch, Englisch, Serbisch, Slowakisch und Slowenisch). Die Autoren führen eine Reihe von Experimenten durch, um zu zeigen, dass: Die zusätzliche Vorverarbeitung eines mehrsprachigen Transformationsmodells (XLM-R-parla) auf parlamentarischen Daten dessen Leistung bei der Sentiment-Erkennung in parlamentarischen Verhandlungen deutlich verbessert. Große 561-Millionen-Parameter-Mehrsprachmodelle deutlich besser abschneiden als Modelle mit der Hälfte der Parameter. Mehrsprachmodelle auch auf ungesehenen Sprachen sehr gut funktionieren. Selbst wenn sprachspezifische Trainingsdaten für die zu verarbeitenden parlamentarischen Verhandlungen vorhanden sind, ein Mehrsprachmodell, das auf der vierfachen Datenmenge aus anderen Sprachen trainiert wurde, die Ergebnisse für das Ziel-Parlament deutlich verbessert. Der Datensatz ist über das CLARIN.SI-Repository verfügbar und kann unter der CC-BY-SA 4.0-Lizenz genutzt werden.
Stats
Die Verteilung der Drei-Klassen-Labels nach der Bereinigung über die Datensätze hinweg ist wie folgt: Negativ: 8232 Neutral: 6691 Positiv: 3277
Quotes
Keine relevanten Zitate identifiziert.

Deeper Inquiries

Wie lassen sich die beobachteten Unterschiede in der Verteilung der Sentiment-Kategorien zwischen den Parlamenten erklären? Welche Rückschlüsse können daraus auf die politische Kultur und Diskurskultur der verschiedenen Länder gezogen werden?

Die beobachteten Unterschiede in der Verteilung der Sentiment-Kategorien zwischen den Parlamenten könnten auf verschiedene Faktoren zurückzuführen sein. Zum einen könnten kulturelle Unterschiede und politische Traditionen eine Rolle spielen. Jedes Land hat seine eigene politische Kultur, die sich in der Art und Weise widerspiegelt, wie politische Diskurse geführt werden und wie Emotionen in der Politik ausgedrückt werden. Darüber hinaus könnten auch historische Ereignisse, politische Systeme und gesellschaftliche Normen die Art und Weise beeinflussen, wie Politiker und Politikerinnen in den Parlamenten agieren und kommunizieren. Die unterschiedliche Verteilung der Sentiment-Kategorien könnte auch auf spezifische politische Themen und Ereignisse zurückzuführen sein, die in den jeweiligen Ländern diskutiert werden. Politische Debatten und Diskurse werden stark von aktuellen Ereignissen und politischen Entwicklungen beeinflusst, was sich in der Art und Weise widerspiegeln kann, wie Emotionen in den Reden und Äußerungen der Politiker zum Ausdruck kommen. Aus diesen beobachteten Unterschieden in der Verteilung der Sentiment-Kategorien zwischen den Parlamenten können Rückschlüsse auf die politische Kultur und Diskurskultur der verschiedenen Länder gezogen werden. Sie zeigen, dass politische Kommunikation und der Ausdruck von Emotionen in der Politik stark von kulturellen, historischen und politischen Kontexten geprägt sind. Die Unterschiede können auch darauf hinweisen, wie Politiker und Politikerinnen in verschiedenen Ländern mit politischen Themen umgehen und wie sie ihre Standpunkte und Emotionen in parlamentarischen Debatten zum Ausdruck bringen.

Wie könnte man die Sentiment-Analyse in parlamentarischen Debatten mit anderen Analysemethoden wie Themenmodellierung oder Netzwerkanalyse kombinieren, um ein umfassenderes Bild der politischen Kommunikation zu erhalten?

Die Kombination der Sentiment-Analyse mit anderen Analysemethoden wie Themenmodellierung und Netzwerkanalyse kann dazu beitragen, ein umfassenderes Bild der politischen Kommunikation in parlamentarischen Debatten zu erhalten. Durch die Integration von Themenmodellierungstechniken können wichtige politische Themen und Diskursmuster identifiziert werden, die in den Debatten vorkommen. Dies ermöglicht es, die inhaltliche Ausrichtung und Schwerpunkte der politischen Kommunikation besser zu verstehen und zu analysieren. Die Netzwerkanalyse kann dazu beitragen, die Beziehungen und Interaktionen zwischen den Akteuren in den parlamentarischen Debatten zu visualisieren und zu untersuchen. Durch die Analyse von Netzwerken können Einblicke in die Verbindungen, Einflüsse und Kommunikationsmuster zwischen den Politikern und Politikerinnen gewonnen werden. Dies kann helfen, die Dynamik und Struktur der politischen Kommunikation zu erfassen und zu interpretieren. Durch die Kombination dieser verschiedenen Analysemethoden kann ein umfassenderes Verständnis der politischen Kommunikation in parlamentarischen Debatten erreicht werden. Die Integration von Sentiment-Analyse, Themenmodellierung und Netzwerkanalyse ermöglicht es, nicht nur die emotionalen Aspekte der politischen Kommunikation zu erfassen, sondern auch die inhaltlichen Themen, Beziehungen und Interaktionen zwischen den Akteuren zu untersuchen und zu analysieren.

Welche Möglichkeiten und Grenzen sehen die Autoren bei der Übertragung des vorgestellten Ansatzes auf andere Domänen der politischen Kommunikation, wie z.B. soziale Medien oder Wahlkampfreden?

Die Autoren sehen bei der Übertragung des vorgestellten Ansatzes auf andere Domänen der politischen Kommunikation, wie soziale Medien oder Wahlkampfreden, sowohl Möglichkeiten als auch Grenzen. Möglichkeiten: Anpassung des Ansatzes: Der vorgestellte Ansatz zur Sentiment-Analyse in parlamentarischen Debatten könnte angepasst und erweitert werden, um auch soziale Medien oder Wahlkampfreden zu analysieren. Dies könnte durch die Integration von spezifischen Datenquellen, Analysetechniken und Annotationsschemata erfolgen. Erweiterung der Datengrundlage: Durch die Erweiterung der Datengrundlage auf soziale Medien oder Wahlkampfreden könnten neue Erkenntnisse über die politische Kommunikation in diesen Bereichen gewonnen werden. Dies könnte dazu beitragen, Trends, Muster und Dynamiken in der politischen Kommunikation besser zu verstehen. Vergleichende Analysen: Der Ansatz könnte genutzt werden, um vergleichende Analysen zwischen verschiedenen Domänen der politischen Kommunikation durchzuführen. Dies könnte Einblicke in die Unterschiede und Gemeinsamkeiten in der Art und Weise bieten, wie politische Akteure in verschiedenen Kontexten kommunizieren und Emotionen ausdrücken. Grenzen: Datenqualität und -verfügbarkeit: Die Übertragung des Ansatzes auf andere Domänen der politischen Kommunikation könnte auf Herausforderungen bei der Datenqualität und -verfügbarkeit stoßen. Soziale Medien und Wahlkampfreden können eine Vielzahl von Datenquellen und Formaten umfassen, die eine umfassende Datenvorbereitung und -bereinigung erfordern. Kontextuelle Unterschiede: Die Analyse von sozialen Medien oder Wahlkampfreden erfordert eine Berücksichtigung der spezifischen Kontexte und Dynamiken dieser Kommunikationskanäle. Der vorgestellte Ansatz muss möglicherweise an die Besonderheiten dieser Domänen angepasst werden, um aussagekräftige Ergebnisse zu erzielen. Interpretation und Generalisierung: Die Übertragung des Ansatzes auf andere Domänen erfordert eine sorgfältige Interpretation und Generalisierung der Ergebnisse. Die Erkenntnisse aus der Analyse von parlamentarischen Debatten können nicht eins zu eins auf andere Kontexte übertragen werden und müssen entsprechend angepasst und interpretiert werden.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star