本論文は、数学問題解答の自動評価を改善するための包括的な数学評価ツールキットを提案している。従来の自動評価手法は、単純な文字列比較や簡単なルールに依存しており、複雑な数学概念を適切に評価できないという課題があった。
提案手法は以下の2つのステージから構成される:
さらに、LLMを統合することで、タイプ分類と等価性判定の精度を大幅に向上させることができる。
提案手法を MATH データセットと GaoKao2023 データセットで評価した結果、従来手法と比較して高い精度を達成できることが示された。特に、LLMを組み合わせることで、数値精度とNLP能力を両立した評価が可能となった。
本研究は、数学推論タスクにおけるLLMの性能評価を標準化し、公平な比較を可能にする包括的な評価ツールを提供するものである。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor