Die Studie zeigt, dass die Wortdarstellungen in Sprachen mit geringen Ressourcen in aktuellen mehrsprachigen Modellen oft nicht gut mit Hochsprachen ausgerichtet sind. Um dies zu beheben, führen die Autoren ein neues Framework ein, das drei Hauptziele verfolgt: Vorhersage von ausgerichteten Wörtern, Ranking von Wortübersetzungen und das weit verbreitete Ranking von Übersetzungen.
Die Experimente auf dem Tatoeba-Datensatz zeigen, dass der vorgeschlagene Ansatz die Leistung der mehrsprachigen Satzeinbettungen, insbesondere für Sprachen mit geringen Ressourcen, deutlich verbessern kann. Darüber hinaus erzielt das Modell auch in einer Reihe anderer Aufgaben, bei denen die meisten Sprachen Hochsprachen sind, wettbewerbsfähige Ergebnisse, was auf die Praktikabilität und Robustheit des Frameworks hindeutet.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhongtao Mia... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02490.pdfDomande più approfondite