Core Concepts
영어 말뭉치를 활용한 지속적 사전 학습을 통해 일본어 능력이 크게 향상되었다.
Abstract
이 연구에서는 Llama 2 모델을 기반으로 일본어 말뭉치를 활용하여 지속적 사전 학습을 수행하여 Swallow 모델을 개발했다. 실험 결과, Swallow 모델은 일본어 태스크에서 기존 모델 대비 약 70%의 성능 향상을 보였다. 특히 일본어 질문 답변 태스크에서 큰 성능 향상이 관찰되었는데, 이는 지속적 사전 학습을 통해 일본어 지식이 효과적으로 습득되었음을 시사한다. 또한 일본어 말뭉치의 양이 증가할수록 성능이 지속적으로 향상되는 것으로 나타났다. 한편 어휘 확장이나 병렬 말뭉치 활용이 다른 태스크에 미치는 영향은 제한적이었지만, 기계 번역 성능 향상에는 도움이 되는 것으로 확인되었다. 이 연구 결과는 영어 기반 LLM을 활용하여 다국어 능력을 효과적으로 향상시킬 수 있는 방법론을 제시한다.
Stats
일본어 질문 답변 태스크(JCQA)에서 Llama 2 대비 약 55% 성능 향상
일본어 기계 번역 태스크(En-Ja)에서 Llama 2 대비 약 41% 성능 향상
일본어 산술 추론 태스크(MGSM)에서 Llama 2 대비 약 63% 성능 향상
Quotes
"지속적 사전 학습을 통해 일본어 능력이 크게 향상되었다."
"일본어 말뭉치의 양이 증가할수록 성능이 지속적으로 향상되었다."
"어휘 확장은 기계 요약 태스크를 제외하고 대부분의 태스크에 영향을 미치지 않았다."
"병렬 말뭉치 활용은 기계 번역 성능 향상에 도움이 되었다."