核心概念
Durch den Einsatz von OFA-Einbettungsinitalisierung und synthetischen Daten können Sprachmodelle für angolanische Sprachen deutlich verbessert werden.
要約
Dieser Artikel stellt vier mehrsprachige Sprachmodelle vor, die speziell für fünf angolanische Sprachen entwickelt wurden. Die Modelle wurden mithilfe des Multilingual Adaptive Fine-tuning (MAFT)-Ansatzes erstellt, wobei zwei Varianten untersucht wurden: eine mit zufälliger Initialisierung der Einbettungen (ANGXLM-R) und eine mit OFA-Einbettungsinitalisierung (ANGOFA).
Die Ergebnisse zeigen, dass ANGOFA, das OFA-Einbettungsinitalisierung und synthetische Daten verwendet, deutlich besser abschneidet als ANGXLM-R und andere Basismodelle. ANGOFA übertrifft den aktuellen Stand der Technik um 12,3 Punkte und OFA um 3,8 Punkte. Dies unterstreicht den erheblichen Leistungsgewinn, der durch den Einsatz von informierter Einbettungsinitalisierung und synthetischen Daten erzielt werden kann.
Die Autoren diskutieren auch, dass regionsspezifische Sprachmodelle, die auf verwandte Sprachen innerhalb derselben Sprachfamilie spezialisiert sind, effektiver sein können als Modelle, die auf vielen Sprachen trainiert wurden. Außerdem zeigt sich, dass der Einsatz von synthetischen Daten die Leistung der MAFT-Modelle deutlich verbessern kann.
統計
Die Angolaner Sprachen haben insgesamt 10,2 Millionen Sprecher.
Der Gesamtumfang des Trainingsdatensatzes beträgt 808,6 MB, davon 527 MB synthetische Daten.
Der Datensatz umfasst 7.187.595 Sätze.
引用
"Durch den Einsatz von OFA-Einbettungsinitalisierung und synthetischen Daten können Sprachmodelle für angolanische Sprachen deutlich verbessert werden."
"Regionsspezifische Sprachmodelle, die auf verwandte Sprachen innerhalb derselben Sprachfamilie spezialisiert sind, können effektiver sein als Modelle, die auf vielen Sprachen trainiert wurden."
"Der Einsatz von synthetischen Daten kann die Leistung der MAFT-Modelle deutlich verbessern."