Temel Kavramlar
Die Leistung mehrsprachiger Sprachmodelle hängt nicht nur von der Trainingsdatengröße ab, sondern auch von der Wahl der zentralen Sprache. Andere Sprachen als Englisch könnten möglicherweise eine effizientere Grundlage für mehrsprachige Anwendungen bieten.
Özet
Die Studie untersucht die Übersetzungsfähigkeiten des Llama2-Sprachmodells. Durch Modellierung einer linearen Beziehung zwischen linguistischen Merkmalsabständen und maschinellen Übersetzungsergebnissen wird untersucht, ob es möglicherweise bessere zentrale Sprachen für mehrsprachige Sprachmodelle als Englisch geben könnte.
Die Experimente zeigen, dass das 7B Llama2-Modell bei der Übersetzung in alle Sprachen, die es gesehen hat, über 10 BLEU-Punkte erreicht, was für Sprachen, die es nicht gesehen hat, selten der Fall ist. Die meisten Verbesserungen bei der Übersetzung in unbekannte Sprachen kommen eher durch Skalierung der Modellgröße als durch Instruktionsanpassung oder Erhöhung der Beispielanzahl.
Die Korrelationsanalyse zeigt, dass syntaktische Ähnlichkeit nicht der einzige linguistische Faktor ist, der stark mit den maschinellen Übersetzungsergebnissen korreliert. Interessanterweise wurde entdeckt, dass unter bestimmten Umständen einige Sprachen (z.B. Schwedisch, Katalanisch) trotz deutlich weniger Trainingsdaten vergleichbare Korrelationsniveaus wie Englisch aufweisen. Diese Erkenntnisse fordern die vorherrschende Landschaft der Sprachmodelle heraus und legen nahe, dass Modelle, die um andere Sprachen als Englisch zentriert sind, eine effizientere Grundlage für mehrsprachige Anwendungen bieten könnten.
İstatistikler
Die Übersetzungsleistung in alle Sprachen, die Llama2 während des Trainings gesehen hat, erreicht über 10 BLEU-Punkte.
Skalierung der Modellgröße führt zu größeren Verbesserungen der Übersetzungsleistung als Instruktionsanpassung oder Erhöhung der Beispielanzahl.
Syntaktische Ähnlichkeit ist nicht der einzige linguistische Faktor, der stark mit den maschinellen Übersetzungsergebnissen korreliert.
Einige Sprachen wie Schwedisch und Katalanisch zeigen trotz deutlich weniger Trainingsdaten vergleichbare Korrelationsniveaus wie Englisch.
Alıntılar
"Die Leistung mehrsprachiger Sprachmodelle hängt nicht nur von der Trainingsdatengröße ab, sondern auch von der Wahl der zentralen Sprache."
"Andere Sprachen als Englisch könnten möglicherweise eine effizientere Grundlage für mehrsprachige Anwendungen bieten."