Der Bericht beschreibt eine Methode zur effizienten Anpassung großer Sprachmodelle (LLMs) an Sprachen mit wenigen Ressourcen wie Traditionelles Chinesisch.
Zunächst wird der Vokabularumfang des Llama 2-Modells durch Hinzufügen von 27.241 Tokens für Traditionelles Chinesisch erweitert. Dann wird das Modell unter Verwendung der QLora-Technik und einer neuartigen Zip-Tie-Einbettungsmethode sekundär vortrainiert. Dadurch lässt sich die Zahl der zu trainierenden Parameter deutlich reduzieren.
Das resultierende Modell, Bailong genannt, zeigt in Evaluierungen auf Benchmarks für Traditionelles Chinesisch eine bessere Leistung als andere vergleichbare Modelle. Außerdem wurde ein instruktionsbasiertes Bailong-Modell trainiert, das für Dialogszenarien optimiert ist.
Um die Leistung der Modelle in Echtzeit-Anwendungen zu bewerten, wurde der Bailong-Benchmark eingeführt, der 140 Aufgaben in Traditionellem Chinesisch und Englisch umfasst.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Lung-Chuan C... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00862.pdfDypere Spørsmål