Główne pojęcia
数学問題解答の自動評価を改善するための包括的な数学評価ツールキットを提案する。
Streszczenie
本論文は、数学問題解答の自動評価を改善するための包括的な数学評価ツールキットを提案している。従来の自動評価手法は、単純な文字列比較や簡単なルールに依存しており、複雑な数学概念を適切に評価できないという課題があった。
提案手法は以下の2つのステージから構成される:
答案の種類(実数、複素数、集合など)を特定するタイプ分類モジュール
期待答案と予測答案の等価性を評価する評価モジュール
さらに、LLMを統合することで、タイプ分類と等価性判定の精度を大幅に向上させることができる。
提案手法を MATH データセットと GaoKao2023 データセットで評価した結果、従来手法と比較して高い精度を達成できることが示された。特に、LLMを組み合わせることで、数値精度とNLP能力を両立した評価が可能となった。
本研究は、数学推論タスクにおけるLLMの性能評価を標準化し、公平な比較を可能にする包括的な評価ツールを提供するものである。
Statystyki
同じ答案表現でも異なる数学概念を意味する場合がある
異なる表現でも等価な場合がある
Cytaty
"LLMsは適切なプロンプトや外部ツールを使えば、様々なタスクで人間と同等のパフォーマンスを達成できるが、数学的推論は依然として大きな課題である。"
"従来の自動評価手法は、単純な文字列比較や簡単なルールに依存しており、複雑な数学概念を適切に評価できない。"