核心概念
Förderung der vietnamesischen Sprachverarbeitung durch offene Datensätze und Modelle.
統計
Eine umfangreiche vietnamesische NewsCorpus-Datensammlung von rund 32 Millionen Artikeln, 53 GB groß, für das kontinuierliche Pre-Training von LLMs.
Ein umfangreicher vietnamesischer NewsSapo-Datensatz zur Verbesserung des Trainings von Satz-/Passage-Einbettungen.
Ein zusätzlicher groß angelegter vietnamesischer NewsCategory-Datensatz für die Textklassifizierung.
Vietnamse Alpaca-Datensätze für das überwachte Feintuning von LLMs.
Synthetische Selbstgesprächs- und Rollenspiel-Realm-Datensätze zur Verbesserung der Konversationsfähigkeit von LLMs.
Ein gutes vietnamesisches Bi-Encoder-Modell für fortgeschrittene Satzeinbettungsaufgaben.
Zwei Basismodelle, vietnamesische LLaMA2-7b, die weiter auf einem umfangreichen Korpus von vietnamesischem Text vortrainiert wurden.