Core Concepts
OFA, ein Framework, das die Einbettungen unbekannter Subwörter mit einer faktoriellen Einbettungsparametrisierung weise initialisiert, um eine effiziente großangelegte mehrsprachige fortgesetzte Vortrainierung zu ermöglichen.
Abstract
Der Artikel stellt OFA, ein Framework zur effizienten Initialisierung von Subwort-Einbettungen für die mehrsprachige fortgesetzte Vortrainierung, vor.
Kernpunkte:
Statt die Einbettungen von Subwörtern zufällig zu initialisieren, nutzt OFA externe mehrsprachige Vektoren, um die Einbettungen sinnvoll zu initialisieren.
OFA verwendet eine faktorisierte Parametrisierung der Einbettungen, um die Anzahl der Parameter zu reduzieren.
Experimente zeigen, dass OFA-initialisierte Modelle eine schnellere Konvergenz während des fortgesetzten Trainings aufweisen und auf einer Vielzahl von Downstream-Aufgaben bessere oder vergleichbare Leistung erzielen als Basismodelle mit zufälliger Initialisierung.
OFA-initialisierte Modelle mit kleineren Einbettungsdimensionen sind effizienter, da sie weniger Rechenressourcen und Kohlenstoffemissionen verursachen.
Stats
Die Anzahl der Parameter in den Einbettungen macht etwa 50% der Gesamtparameter eines mehrsprachigen Modells aus.
Bei XLM-V machen die Einbettungen sogar etwa 90% der Gesamtparameter aus.
Quotes
"Statt mehrsprachige Sprachmodelle von Grund auf neu zu trainieren, ist eine effizientere Methode, bestehende vortrainierte Sprachmodelle (PLMs) über Vokabularerweiterung und fortgesetzte Vortrainierung an neue Sprachen anzupassen."
"OFA nutzt den Vorteil externer gut ausgerichteter mehrsprachiger statischer Wortvektoren und injiziert das Ausrichtungswissen in die Subwort-Einbettungen."
"OFA wendet Matrixfaktorisierung an und ersetzt die sperrigen Einbettungen durch zwei niedrigdimensionale Matrizen, was die Anzahl der Parameter erheblich reduziert."