In dieser Arbeit stellen wir zwei leistungsstarke Open-Source-Sprachmodelle für das Vietnamesische vor: PhoGPT-4B und PhoGPT-4B-Chat.
PhoGPT-4B ist ein Transformer-Decoder-basiertes Modell mit 3,7 Milliarden Parametern, das von Grund auf auf einem Korpus von 102 Milliarden vietnamesischen Tokens vortrainiert wurde. Es verwendet einen vietnamesisch-spezifischen Byte-Level-BPE-Tokenizer mit einem Vokabular von 20.480 Token.
Die Chat-Variante PhoGPT-4B-Chat wurde durch feines Abstimmen des Basismodells auf einem Datensatz von 70.000 Anweisungsaufforderungen und ihren Antworten sowie zusätzlichen 290.000 Konversationen erstellt.
Die Leistung von PhoGPT-4B-Chat wurde mit geschlossenen und anderen Open-Source-Modellen verglichen, wobei es insbesondere bei Fragen mit Bezug zu Vietnam die höchste Genauigkeit erreichte.
Wir hoffen, dass diese Modelle zukünftige Forschung und Anwendungen zu vietnamesischen Sprachmodellen fördern werden.
To Another Language
from source content
arxiv.org
Дополнительные вопросы