Conceitos Básicos
저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴
Estatísticas
모델 학습에 사용된 데이터셋은 약 130억 토큰 규모
데이터셋은 중국어(간체), 중국어(번체), 영어로 구성되어 있음
Citações
"Large language models (LLMs) have demonstrated exceptional performance in various NLP applications."
"However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages."