Core Concepts
Wir entwickelten zwei Modelle, TranSem und FineSem, um die semantische Textähnlichkeit in 14 afrikanischen und asiatischen Sprachen zu erkennen. Dabei untersuchten wir die Auswirkungen von maschineller Übersetzung und verschiedener Trainingsmethoden.
Abstract
In dieser Arbeit präsentieren wir zwei Modelle, TranSem und FineSem, die wir für die Teilnahme an der SemEval-2024 Task 1 entwickelt haben. Die Aufgabe zielt darauf ab, Modelle zu entwickeln, die die semantische Textähnlichkeit (STR) zwischen zwei Sätzen in 14 afrikanischen und asiatischen Sprachen erkennen können.
Für das TranSem-Modell verwendeten wir eine Siamese-Netzwerkarchitektur, bei der zwei Sätze durch einen gemeinsamen Encoder in Vektoren überführt und deren Ähnlichkeit dann berechnet wird. Wir experimentierten mit verschiedenen Satzembedding-Modellen und fanden, dass die Verwendung von DistilRoberta gute Ergebnisse liefert.
Beim FineSem-Modell setzten wir auf direktes Fine-Tuning eines T5-Modells auf den STR-Datensätzen. Wir verglichen dabei die Leistung von Modellen, die nur auf den Originaldaten, nur auf übersetzten Daten oder auf einer Mischung aus beidem trainiert wurden. Die Ergebnisse zeigen, dass die direkte Feinabstimmung auf den Originaldaten oft vergleichbar mit der Verwendung von übersetzten Daten ist.
Für die Sprachgruppen in Track C verwendeten wir T5-Modelle, die entweder auf Englisch oder Spanisch trainiert wurden. Hier konnten wir für einige Sprachen wie Afrikaans und Indonesisch bessere Ergebnisse als die Baseline erzielen.
Insgesamt zeigen unsere Experimente, dass sowohl Satzembeddings als auch direktes Fine-Tuning auf den Originaldaten effektive Ansätze für die Erkennung semantischer Textähnlichkeit in mehrsprachigen Kontexten sind. Der Einsatz von maschineller Übersetzung kann in einigen Fällen zu Verbesserungen führen, ist aber nicht in allen Fällen notwendig.
Stats
Die Verwendung einer Batch-Größe von 32 für das TranSem-Modell und 16 für das FineSem-Modell zeigte gute Ergebnisse.
Mittleres Pooling der Satzembeddings erwies sich als effektiver als Max-Pooling oder Verwendung des CLS-Tokens.
Das direkte Fine-Tuning des T5-Modells auf den übersetzten und augmentierten Datensätzen lieferte vergleichbare Ergebnisse wie das TranSem-Modell mit verschiedenen Satzembedding-Modellen.
Quotes
"Wir entwickelten zwei STR-Modelle, TranSem und FineSem, für die überwachten und sprachübergreifenden Einstellungen."
"Wir fanden, dass das direkte Fine-Tuning auf der Aufgabe mit der Verwendung von Satzembeddings vergleichbar ist und die Übersetzung ins Englische für einige Sprachen zu besseren Leistungen führt."