Core Concepts
다국어 대규모 언어 모델의 한국어 성능을 향상시키기 위해 어휘 확장, 이중언어 사전학습, 지침 학습 등의 방법을 제안하고 실험적으로 검증하였다.
Abstract
이 연구는 다국어 대규모 언어 모델(MLLM)의 한국어 성능을 향상시키기 위한 세 가지 전략을 제안하고 실험적으로 검증하였다.
첫째, MLLM의 한국어 어휘를 확장하여 표현력을 높였다. 둘째, 고자원 언어와 저자원 언어의 지식을 정렬하기 위해 이중언어 데이터로 사전학습을 수행하였다. 셋째, 고품질의 소규모 지침 데이터셋을 구축하고 지침 학습을 수행하여 한국어 활용도를 높였다.
실험에서는 Llama2 모델을 사용하였고, 한국어를 저자원 언어로 설정하여 8개 과제에 걸쳐 정량적으로 평가하였다. 또한 인간 평가와 GPT4 기반 평가를 통해 정성적 분석을 수행하였다. 실험 결과, 제안한 Bllossom 모델이 기존 한국어 단일언어 모델 대비 우수한 성능을 보였다.
Stats
한국어 데이터는 전체 Llama2 학습 데이터의 0.06%만 사용되었다.
제안 모델은 33GB의 한국어-영어 이중언어 데이터로 사전학습을 수행하였다.
제안 모델은 1,030개의 고품질 한국어 지침 데이터로 학습을 수행하였다.
Quotes
"다국어 대규모 언어 모델(MLLM)은 현재의 수요를 충족시키기 위해 개발되었지만, 저자원 언어(LRL)는 간과되고 있다."
"이 연구는 공개된 MLLM인 Llama2의 한국어 기능을 향상시키는 방법을 탐구한다."
"실험 결과, 제안한 Bllossom 모델은 기존 한국어 단일언어 모델 대비 우수한 성능을 보였다."