In dieser Arbeit präsentieren wir zwei Modelle, TranSem und FineSem, die wir für die Teilnahme an der SemEval-2024 Task 1 entwickelt haben. Die Aufgabe zielt darauf ab, Modelle zu entwickeln, die die semantische Textähnlichkeit (STR) zwischen zwei Sätzen in 14 afrikanischen und asiatischen Sprachen erkennen können.
Für das TranSem-Modell verwendeten wir eine Siamese-Netzwerkarchitektur, bei der zwei Sätze durch einen gemeinsamen Encoder in Vektoren überführt und deren Ähnlichkeit dann berechnet wird. Wir experimentierten mit verschiedenen Satzembedding-Modellen und fanden, dass die Verwendung von DistilRoberta gute Ergebnisse liefert.
Beim FineSem-Modell setzten wir auf direktes Fine-Tuning eines T5-Modells auf den STR-Datensätzen. Wir verglichen dabei die Leistung von Modellen, die nur auf den Originaldaten, nur auf übersetzten Daten oder auf einer Mischung aus beidem trainiert wurden. Die Ergebnisse zeigen, dass die direkte Feinabstimmung auf den Originaldaten oft vergleichbar mit der Verwendung von übersetzten Daten ist.
Für die Sprachgruppen in Track C verwendeten wir T5-Modelle, die entweder auf Englisch oder Spanisch trainiert wurden. Hier konnten wir für einige Sprachen wie Afrikaans und Indonesisch bessere Ergebnisse als die Baseline erzielen.
Insgesamt zeigen unsere Experimente, dass sowohl Satzembeddings als auch direktes Fine-Tuning auf den Originaldaten effektive Ansätze für die Erkennung semantischer Textähnlichkeit in mehrsprachigen Kontexten sind. Der Einsatz von maschineller Übersetzung kann in einigen Fällen zu Verbesserungen führen, ist aber nicht in allen Fällen notwendig.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Shubhashis R... klo arxiv.org 04-15-2024
https://arxiv.org/pdf/2402.12730.pdfSyvällisempiä Kysymyksiä