In diesem Artikel wird die Entwicklung und Evaluierung eines kompakten mehrsprachigen ALBERT-Modells (mALBERT) vorgestellt. Das Modell wurde auf Basis von Wikipedia-Daten in 52 Sprachen trainiert und in drei Varianten mit unterschiedlichen Vokabulargrößen (32k, 64k, 128k) veröffentlicht.
Die Evaluierung auf gängigen Benchmarks für Slot-Filling und Klassifikationsaufgaben zeigt, dass die mALBERT-Modelle vergleichbare Ergebnisse wie größere mehrsprachige Modelle wie mBERT erzielen können. Dabei benötigten die mALBERT-Modelle deutlich weniger Rechenressourcen für das Training (9.000 Stunden GPU-Zeit).
Darüber hinaus wurde eine Studie zum Einfluss der Subwort-Tokenisierung auf die Modellleistung durchgeführt. Es zeigte sich, dass eine stärkere Segmentierung der Wörter in Subwörter die Leistung des Modells bei Benennten Entitäten-Erkennung beeinträchtigt. Dies deutet darauf hin, dass die Wahl des Tokenisierungsverfahrens einen wichtigen Einfluss auf die Leistung von Sprachmodellen haben kann.
Insgesamt zeigt die Studie, dass kompakte mehrsprachige Sprachmodelle wie mALBERT eine sinnvolle Alternative zu großen Sprachmodellen darstellen können, da sie ähnliche Leistungen bei deutlich geringerem Ressourcenverbrauch erzielen.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor