이 논문은 수학적 추론 및 일반화 능력을 체계적으로 평가하기 위한 프레임워크를 제안한다. 이를 위해 다음과 같은 접근법을 사용한다:
상징 엔진을 활용하여 수학적 유도 과정을 생성하고 교란시킨다. 이를 통해 수학적 추론의 다양한 측면(대칭성, 변수 표현 형식 등)을 체계적으로 평가할 수 있다.
유도 과정 분류 및 미적분 분류와 같은 시퀀스 분류 작업을 통해 모델의 수학적 추론 능력을 평가한다.
BERT 기반 모델과 GPT 모델을 비교 평가하여 각 모델의 수학적 추론 및 일반화 능력을 분석한다.
실험 결과, GPT-4는 in-distribution 성능에서 BERT 기반 모델과 대등하거나 더 나은 성능을 보였지만, 복잡한 수학적 의존 관계를 포함한 교란된 입력에 대해서는 취약한 모습을 보였다. 반면 BERT 기반 모델은 in-distribution 성능은 높지만, 교란된 입력에 대해 크게 성능이 저하되는 것으로 나타났다. 이는 변환기 모델이 수학적 추론에 필요한 구조화된 정보를 선형 텍스트에서 적절히 추론하지 못함을 보여준다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究