Dieser Beitrag beschreibt zwei Methoden zur automatischen Annotation von Daten für die Erkennung der Emotionspolariät in lateinischen Texten:
Polarity Coordinate (PC) Clustering: Hierbei werden Sätze anhand ihrer Polarität (positiv/negativ) und Intensität in einem zweidimensionalen Koordinatensystem dargestellt und mit k-Means-Clustering klassifiziert. Um die Klassifikation zu verbessern, wird eine gewichtete Kreuzentropie-Verlustfunktion verwendet.
Gaussian Clustering: Hier wird ein Gaussian Mixture Model auf den vorhandenen Trainingsdaten trainiert, um Wahrscheinlichkeitsverteilungen für die vier Klassen (positiv, negativ, neutral, gemischt) zu lernen. Neue Sätze werden dann anhand dieser Verteilungen klassifiziert.
Für die neuronale Modellierung werden verschiedene lateinische Sprachmodelle (z.B. Latin BERT, LaBERTa, PhilBERTa) und Encoder-Architekturen (LSTM, Transformer) untersucht. Die besten Ergebnisse wurden mit PhilBERTa-Embeddings und einem Transformer-Encoder erzielt, die den zweiten Platz in der EvaLatin 2024 Shared Task erreichten.
Die Analyse zeigt, dass die Gaussian-Annotation die Testdaten besser widerspiegelt als die PC-Annotation, da letztere eine starke Präferenz für die neutrale Klasse aufweist. Dies deutet darauf hin, dass die Verteilung der annotierten Daten einen erheblichen Einfluss auf die Modellleistung hat.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Stephen Both... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07792.pdfDypere Spørsmål