Die Studie zeigt, dass die Wortdarstellungen in Sprachen mit geringen Ressourcen in aktuellen mehrsprachigen Modellen oft nicht gut mit Hochsprachen ausgerichtet sind. Um dies zu beheben, führen die Autoren ein neues Framework ein, das drei Hauptziele verfolgt: Vorhersage von ausgerichteten Wörtern, Ranking von Wortübersetzungen und das weit verbreitete Ranking von Übersetzungen.
Die Experimente auf dem Tatoeba-Datensatz zeigen, dass der vorgeschlagene Ansatz die Leistung der mehrsprachigen Satzeinbettungen, insbesondere für Sprachen mit geringen Ressourcen, deutlich verbessern kann. Darüber hinaus erzielt das Modell auch in einer Reihe anderer Aufgaben, bei denen die meisten Sprachen Hochsprachen sind, wettbewerbsfähige Ergebnisse, was auf die Praktikabilität und Robustheit des Frameworks hindeutet.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Zhongtao Mia... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02490.pdfPerguntas Mais Profundas