이 논문은 데이터 중심 학습을 통해 대규모 언어 모델(LLM)의 성능을 향상시키는 방법을 제안한다.
첫째, 저자들은 데이터 처리 파이프라인을 제안하여 700억 개 이상의 고품질 데이터를 구축했다. 이 데이터는 영어와 중국어로 구성되어 있으며, 자동 평가와 사람 평가를 통해 품질을 검증했다.
둘째, 저자들은 LLaMA2-13B를 기반으로 3단계 지속 사전 학습 전략을 제안했다. 첫 번째 단계에서는 비지도 데이터를 사용하고, 두 번째 단계에서는 지도 데이터를 사용하며, 세 번째 단계에서는 수학 능력 향상을 위한 데이터 증강을 사용했다. 이를 통해 Ziya2 모델을 개발했다.
셋째, 저자들은 데이터의 '응집성', '가독성', '유사성' 등 3가지 속성을 정의하고, 이를 바탕으로 데이터 중심 스케일링 법칙을 수립했다. 실험 결과, '응집성'과 '가독성'을 향상시키는 것이 모델 성능 향상에 더 효과적인 것으로 나타났다.
종합적으로 이 논문은 데이터 중심 학습을 통해 LLM의 성능을 크게 향상시켰으며, 데이터 속성에 대한 분석을 통해 향후 LLM 연구에 유용한 통찰을 제공한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Ruyi Gan,Ziw... في arxiv.org 04-05-2024
https://arxiv.org/pdf/2311.03301.pdfاستفسارات أعمق