Die Studie untersucht den Einfluss von Sprachungleichgewichten auf die sprachübergreifende Verallgemeinerung von Sprachmodellen. In kontrollierten Experimenten mit perfekt äquivalenten geklonten Sprachen beobachten die Autoren, dass das Vorhandensein einer dominanten Sprache während des Trainings die Leistung der weniger häufigen Sprachen verbessert und zu einer stärkeren Ausrichtung der Modelldarstellungen über Sprachen hinweg führt. Dieser Trend verstärkt sich mit zunehmender Modellgröße und Trainingsdauer - bei großen Modellen oder langem Training liefert ein 90/10-Sprachsplit eine bessere Leistung in beiden Sprachen als ein ausgewogener 50/50-Split. Die Autoren entwickeln Trainingsansätze, die die Leistung in allen geklonten Sprachen verbessern können, ohne die Trainingsdaten zu ändern. Bei der Untersuchung realer Sprachen (Englisch und Französisch) profitieren zwar weniger häufige Sprachen immer noch von häufigeren, aber ob Sprachungleichgewichte dort zu einer sprachübergreifenden Verallgemeinerung führen, ist nicht eindeutig.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor