Die Studie untersucht, wie sich dedizierte einsprachige oder moderat mehrsprachige Encoder-Modelle, die von Grund auf trainiert wurden, im Vergleich zu zusätzlichem Vortraining massiv mehrsprachiger Encoder-Modelle mit bis zu 1 Milliarde Parametern auf dem Beispiel der HBS-Sprachgruppe (Bosnisch, Kroatisch, Montenegrinisch und Serbisch) verhalten.
Die Ergebnisse zeigen, dass durch zusätzliches Vortraining der XLM-R-large-Modelle die Leistung auf allen untersuchten Aufgaben (Namensnennung, Sentimentanalyse, kausales Reasoning) deutlich gesteigert werden kann. Allerdings flacht der Leistungsgewinn nach einer gewissen Schwelle des zusätzlichen Vortrainings ab. Für die Aufgabe des kausalen Reasoning nimmt die Leistung sogar wieder ab. Dies wird darauf zurückgeführt, dass das zusätzliche Vortraining die mehrsprachige Natur des Ausgangsmodells stören und so den Verlust von tieferem Sprachverständnis bewirken kann.
Die Studie empfiehlt, bestehende massiv mehrsprachige Modelle für weniger gut ausgestattete Sprachen zu nutzen und durch zusätzliches Vortraining anzupassen. Dabei ist es wichtig, die Leistung kontinuierlich zu überwachen, um den Punkt zu identifizieren, an dem die Leistung wieder abzunehmen beginnt.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen