Core Concepts
저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴
Abstract
기존 대규모 언어 모델은 주로 영어 데이터로 사전 학습되어 있어 다른 언어에 대한 성능이 저하됨
이를 해결하기 위해 QLoRA와 zip-tie 임베딩 기법을 활용하여 Llama 2 모델을 중국어(번체)에 효과적으로 적응시킴
중국어(번체) 이해 및 생성 능력이 향상된 Bailong 모델을 개발하였으며, 지침 따르기 능력을 강화한 Bailong-instruct 모델도 함께 제공
중국어(번체) 데이터셋 및 평가 벤치마크인 Bailong-bench를 소개하여 모델 성능을 종합적으로 평가
Stats
모델 학습에 사용된 데이터셋은 약 130억 토큰 규모
데이터셋은 중국어(간체), 중국어(번체), 영어로 구성되어 있음
Quotes
"Large language models (LLMs) have demonstrated exceptional performance in various NLP applications."
"However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages."