핵심 개념
Durch die explizite Ausrichtung von Wörtern zwischen Englisch und acht Sprachen mit geringen Ressourcen kann die Leistung von Modellen für mehrsprachige Satzeinbettungen in Sprachen mit geringen Ressourcen deutlich verbessert werden.
초록
Die Studie zeigt, dass die Wortdarstellungen in Sprachen mit geringen Ressourcen in aktuellen mehrsprachigen Modellen oft nicht gut mit Hochsprachen ausgerichtet sind. Um dies zu beheben, führen die Autoren ein neues Framework ein, das drei Hauptziele verfolgt: Vorhersage von ausgerichteten Wörtern, Ranking von Wortübersetzungen und das weit verbreitete Ranking von Übersetzungen.
Die Experimente auf dem Tatoeba-Datensatz zeigen, dass der vorgeschlagene Ansatz die Leistung der mehrsprachigen Satzeinbettungen, insbesondere für Sprachen mit geringen Ressourcen, deutlich verbessern kann. Darüber hinaus erzielt das Modell auch in einer Reihe anderer Aufgaben, bei denen die meisten Sprachen Hochsprachen sind, wettbewerbsfähige Ergebnisse, was auf die Praktikabilität und Robustheit des Frameworks hindeutet.
통계
Die Studie verwendet Datensätze mit insgesamt 36 Millionen parallelen Sätzen für das Training.
Für acht Sprachen mit geringen Ressourcen (tl, jv, sw, ml, te, mr, kk, ka) gibt es deutlich weniger parallele Sätze im Trainingsdatensatz.
Die Anzahl der Wikipedia-Artikel pro Sprache variiert stark, von 45.750 für Tl bis 2.859.124 für Deutsch.
인용구
"Durch die explizite Ausrichtung von Wörtern zwischen Englisch und acht Sprachen mit geringen Ressourcen kann die Leistung von Modellen für mehrsprachige Satzeinbettungen in Sprachen mit geringen Ressourcen deutlich verbessert werden."
"Das vorgeschlagene Framework erzielt auch in einer Reihe anderer Aufgaben, bei denen die meisten Sprachen Hochsprachen sind, wettbewerbsfähige Ergebnisse, was auf die Praktikabilität und Robustheit des Frameworks hindeutet."