Die Studie zeigt, dass die Wortdarstellungen in Sprachen mit geringen Ressourcen in aktuellen mehrsprachigen Modellen oft nicht gut mit Hochsprachen ausgerichtet sind. Um dies zu beheben, führen die Autoren ein neues Framework ein, das drei Hauptziele verfolgt: Vorhersage von ausgerichteten Wörtern, Ranking von Wortübersetzungen und das weit verbreitete Ranking von Übersetzungen.
Die Experimente auf dem Tatoeba-Datensatz zeigen, dass der vorgeschlagene Ansatz die Leistung der mehrsprachigen Satzeinbettungen, insbesondere für Sprachen mit geringen Ressourcen, deutlich verbessern kann. Darüber hinaus erzielt das Modell auch in einer Reihe anderer Aufgaben, bei denen die meisten Sprachen Hochsprachen sind, wettbewerbsfähige Ergebnisse, was auf die Praktikabilität und Robustheit des Frameworks hindeutet.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Zhongtao Mia... pada arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02490.pdfPertanyaan yang Lebih Dalam