이 논문은 대규모 언어 모델의 성능 향상을 위한 데이터 혼합 및 선별 솔루션을 제안한다.
먼저 데이터 중복 제거, 저수준 및 고수준 품질 필터링, 다양성 선별 등의 단계를 거친다.
저수준 품질 필터링에서는 텍스트 길이와 언어 식별 필터링을 적용한다.
고수준 품질 필터링에서는 언어 모델 기반의 perplexity 필터링, 지시 따르기 난이도(IFD) 필터링, IFD-Vote 필터링 기법을 도입한다.
다양성 선별을 위해 k-center-greedy 알고리즘을 활용한다.
이러한 방법론을 통해 BetterMixture 챌린지에서 3위를 달성했다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Shuaijiang Z... pada arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13233.pdfPertanyaan yang Lebih Dalam