Core Concepts
도구 보강 대규모 언어 모델(TALM)은 지식 검색, 프로그램 실행, 기호 방정식 해결 등의 도구를 활용하여 복잡한 수학 문제 해결 능력을 향상시킬 수 있다.
Abstract
이 연구에서는 MATHSENSEI이라는 TALM 프레임워크를 제안하였다. MATHSENSEI은 Bing 웹 검색, Python 프로그램 실행, Wolfram Alpha 기호 방정식 해결 등의 도구를 활용한다. 다양한 수학 문제 해결 데이터셋(MATH, AQUA-RAT, GSM-8K, MMLU-Math)에 대한 실험을 통해 다음을 확인하였다:
- 개별 도구의 효과:
- Bing 웹 검색은 관련 지식 검색에 효과적이며, Wolfram Alpha는 복잡한 수학 문제 해결에 도움이 된다.
- Python 코드 생성기는 대수학 및 대수 전 단계 문제에 효과적이지만, 단순한 산술 문제에는 부적절할 수 있다.
- 도구 조합의 효과:
- Wolfram Alpha와 Python 코드 생성기를 함께 사용하면 중급 대수학 및 확률 문제에서 성능이 크게 향상된다.
- 단순한 수학 문제에서는 추가 도구의 사용이 크게 도움이 되지 않는다.
- 계획 전략의 효과:
- 고정된 도구 순서를 사용하는 것이 동적 계획 전략보다 효과적이었다.
이러한 결과는 복잡한 수학 문제 해결을 위해 적절한 도구 조합과 순서를 선택하는 것이 중요함을 시사한다.
Stats
중급 대수학 문제에서 GPT-4(CoT 프롬프팅)의 정확도는 23.4%이지만, MATHSENSEI의 PG + WA + SG (
) 설정에서는 35.0%로 향상되었다.
전처 대수학 문제에서 GPT-4(CoT 프롬프팅)의 정확도는 26.7%이지만, MATHSENSEI의 WA + PG + SG (
) 설정에서는 28.9%로 향상되었다.
AQUA-RAT 데이터셋에서 MATHSENSEI의 정확도는 63.8%로, 단독 SG (
) 모델보다 2.4% 향상되었다.
MMLU-Math 데이터셋에서 MATHSENSEI의 정확도는 69.5%로, 단독 SG (
) 모델보다 3.3% 향상되었다.
Quotes
"도구 보강 대규모 언어 모델(TALM)은 지식 검색, 프로그램 실행, 기호 방정식 해결 등의 도구를 활용하여 복잡한 수학 문제 해결 능력을 향상시킬 수 있다."
"Wolfram Alpha와 Python 코드 생성기를 함께 사용하면 중급 대수학 및 확률 문제에서 성능이 크게 향상된다."
"단순한 수학 문제에서는 추가 도구의 사용이 크게 도움이 되지 않는다."