Core Concepts
KIT-19는 한국어 대규모 언어 모델의 성능 향상을 위해 19개의 다양한 한국어 NLP 데이터셋을 통합한 포괄적인 지침 데이터셋입니다.
Abstract
이 논문에서는 KIT-19라는 한국어 지침 데이터셋을 소개합니다. KIT-19는 19개의 기존 오픈소스 한국어 NLP 데이터셋을 통합하여 구축한 지침 데이터셋입니다.
기존 한국어 지침 데이터셋은 주로 영어 데이터셋의 번역본이거나 ChatGPT 출력을 활용하여 구축되었지만, KIT-19는 이러한 의존성을 극복하고자 합니다.
KIT-19는 총 100,000개의 지침 데이터로 구성되어 있으며, 각 과제별로 5,000개의 데이터를 포함하고 있습니다.
이 논문에서는 KIT-19의 구축 과정과 19개 데이터셋의 출처를 투명하게 공개하고 있습니다.
KIT-19를 활용하여 Polyglot-Ko-5.8b와 Polyglot-Ko-1.3b 모델을 학습시킨 결과, 기존 한국어 언어 모델들을 크게 능가하는 성능을 보였습니다.
Stats
한국어 NLP 과제 19개를 통합한 KIT-19 데이터셋은 총 100,000개의 지침 데이터로 구성되어 있습니다.
각 과제별로 5,000개의 데이터를 포함하고 있습니다.
Quotes
"KIT-19는 한국어 대규모 언어 모델의 성능 향상을 위해 19개의 다양한 한국어 NLP 데이터셋을 통합한 포괄적인 지침 데이터셋입니다."
"KIT-19를 활용하여 학습한 모델은 기존 한국어 언어 모델들을 크게 능가하는 성능을 보였습니다."