본 연구는 수학적 추론 작업을 위한 영향력 있는 데이터 선별 및 구성에 대해 탐구한다.
먼저, 수학적 추론 작업에 적합한 데이터 선별 전략인 QaDS(Quality-aware Diverse Selection)를 제안한다. QaDS는 데이터의 다양성과 품질을 모두 고려하여 선별한다. 다양성 측면에서는 K-center Greedy 전략을 활용하고, 품질 측면에서는 데이터가 서로에게 미치는 긍정적인 영향을 측정하는 "품질 점수"를 정의한다. 이를 통해 QaDS는 수학적 추론 작업에 효과적인 데이터를 선별할 수 있다.
다음으로, 수학적 추론 작업을 위한 최적의 데이터 구성을 탐구한다. 실험 결과, 수학 관련 데이터의 규모를 늘리고 QaDS로 선별한 일반 데이터를 함께 활용하는 것이 도움이 된다는 것을 확인했다. 이를 바탕으로 OpenMathMix라는 최적의 데이터 구성을 정의했다. OpenMathMix는 QaDS로 선별한 오픈소스 데이터로 구성되며, MATH 벤치마크에서 최신 성과를 달성했다.
추가로, QaDS를 활용하여 다양한 선별 비율의 효율적인 fine-tuning 데이터 구성을 제시하고, 관련 데이터셋의 품질을 분석하여 향후 연구에 활용할 수 있는 참고 자료를 제공한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinzhe Ni,Ye... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01067.pdfDeeper Inquiries