이 논문은 수학 문제 해결을 위한 자동 평가 도구를 제안한다. 기존의 자동 평가 도구는 단순한 문자열 비교나 간단한 규칙에 의존하여 복잡한 상황을 다루기 어려웠다. 이에 저자들은 두 단계로 구성된 새로운 평가 도구를 제안한다.
첫 번째 단계에서는 문제의 답안 유형을 분류한다. 저자들은 수학의 기본 개념을 바탕으로 10가지 유형을 정의하였다. 두 번째 단계에서는 기대 답안과 예측 답안의 등가성을 평가한다. 이때 LLM을 선택적으로 통합하여 답안 유형 분류와 등가성 판단의 정확도를 높일 수 있다.
저자들은 MATH와 GaoKao2023 데이터셋을 사용하여 제안한 도구의 성능을 평가하였다. 실험 결과, 제안한 도구는 기존 도구보다 우수한 성능을 보였으며, LLM을 통합할 경우 추가적인 성능 향상을 확인할 수 있었다. 이를 통해 저자들은 수학 문제 해결 연구에 도움이 될 수 있는 표준화된 평가 프레임워크를 제공하고자 한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究