本文探讨了数学推理任务中数据选择和组合的重要性。首先,作者提出了一种考虑数据质量和多样性的选择策略QaDS,并在基准数据集上验证了其优越性。
其次,作者在更大规模的数据集上探索了最优的数据组合。结果表明:1) 增加数学推理数据的规模有助于提高性能;2) 与数学推理数据一起使用经过QaDS选择的一般领域数据,可以进一步提高性能。
作者基于以上发现,构建了OpenMathMix,这是一个由QaDS选择的开源数据组合,在MATH数据集上取得了48.8%的最佳成绩。此外,作者还展示了使用QaDS构建不同规模数据子集的效果,并分析了各类开源数据集的质量,为未来的数学推理任务研究提供参考。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xinzhe Ni,Ye... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01067.pdfYêu cầu sâu hơn