Core Concepts
Sprachliche Ungleichgewichte während des Trainings können die Leistung von Sprachmodellen in weniger häufigen Sprachen verbessern und zu einer stärkeren Ausrichtung der Modelldarstellungen über Sprachen hinweg führen.
Abstract
Die Studie untersucht den Einfluss von Sprachungleichgewichten auf die sprachübergreifende Verallgemeinerung von Sprachmodellen. In kontrollierten Experimenten mit perfekt äquivalenten geklonten Sprachen beobachten die Autoren, dass das Vorhandensein einer dominanten Sprache während des Trainings die Leistung der weniger häufigen Sprachen verbessert und zu einer stärkeren Ausrichtung der Modelldarstellungen über Sprachen hinweg führt. Dieser Trend verstärkt sich mit zunehmender Modellgröße und Trainingsdauer - bei großen Modellen oder langem Training liefert ein 90/10-Sprachsplit eine bessere Leistung in beiden Sprachen als ein ausgewogener 50/50-Split. Die Autoren entwickeln Trainingsansätze, die die Leistung in allen geklonten Sprachen verbessern können, ohne die Trainingsdaten zu ändern. Bei der Untersuchung realer Sprachen (Englisch und Französisch) profitieren zwar weniger häufige Sprachen immer noch von häufigeren, aber ob Sprachungleichgewichte dort zu einer sprachübergreifenden Verallgemeinerung führen, ist nicht eindeutig.
Stats
Bei einem 90/10-Sprachsplit erreicht das Modell einen Token-Effizienz-Wert von über 2 für die seltene Sprache.
Im 50/50-Sprachsetting erreicht das Modell eine durchschnittliche Ähnlichkeit von 0,02 zwischen äquivalenten Subwörtern in den geklonten Sprachen, während es im 90/10-Setting 0,28 sind.
Im 90/10-Sprachsetting haben die Gradientenaktualisierungen eine durchschnittliche Kosinusähnlichkeit von 0,53, verglichen mit 0,07 im 50/50-Setting.
Quotes
"Sprachliche Ungleichgewichte während des Trainings verbessern die Verallgemeinerung und führen zu stärker ausgerichteten Darstellungen über geklonte Sprachen hinweg."
"Bei der Verwendung vieler geklonter Sprachen verbessert das Sampling einer Hauptsprache die Leistung in allen Sprachen deutlich."
"Längeres Training und größere Modelle führen zu stärkeren Leistungsvorteilen aufgrund von Sprachungleichgewichten."