이 논문은 데이터 중심 학습을 통해 대규모 언어 모델(LLM)의 성능을 향상시키는 방법을 제안한다.
첫째, 저자들은 데이터 처리 파이프라인을 제안하여 700억 개 이상의 고품질 데이터를 구축했다. 이 데이터는 영어와 중국어로 구성되어 있으며, 자동 평가와 사람 평가를 통해 품질을 검증했다.
둘째, 저자들은 LLaMA2-13B를 기반으로 3단계 지속 사전 학습 전략을 제안했다. 첫 번째 단계에서는 비지도 데이터를 사용하고, 두 번째 단계에서는 지도 데이터를 사용하며, 세 번째 단계에서는 수학 능력 향상을 위한 데이터 증강을 사용했다. 이를 통해 Ziya2 모델을 개발했다.
셋째, 저자들은 데이터의 '응집성', '가독성', '유사성' 등 3가지 속성을 정의하고, 이를 바탕으로 데이터 중심 스케일링 법칙을 수립했다. 실험 결과, '응집성'과 '가독성'을 향상시키는 것이 모델 성능 향상에 더 효과적인 것으로 나타났다.
종합적으로 이 논문은 데이터 중심 학습을 통해 LLM의 성능을 크게 향상시켰으며, 데이터 속성에 대한 분석을 통해 향후 LLM 연구에 유용한 통찰을 제공한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究