Einführung von EthioLLM - mehrsprachige Großsprachmodelle für fünf äthiopische Sprachen (Amharisch, Ge'ez, Afan Oromo, Somali und Tigrinya) und Englisch, sowie Ethiobenchmark - ein neuer Benchmark-Datensatz für verschiedene NLP-Aufgaben.
In dieser Studie wird ein kosteneffektiver Ansatz zur Erstellung eines mehrsprachigen, multimodalen Datensatzes und zur Entwicklung eines leistungsfähigen mehrsprachigen Großsprachmodells vorgestellt, das die Leistung in Koreanisch und Englisch deutlich verbessert.
Durch Vokabularerweiterung, zweisprachiges Vortraining und Instruktionsanpassung kann die Leistung von Großsprachmodellen für ressourcenarme Sprachen wie Koreanisch signifikant verbessert werden.