이 논문은 수학적 추론 및 일반화 능력을 체계적으로 평가하기 위한 프레임워크를 제안한다. 이를 위해 다음과 같은 접근법을 사용한다:
상징 엔진을 활용하여 수학적 유도 과정을 생성하고 교란시킨다. 이를 통해 수학적 추론의 다양한 측면(대칭성, 변수 표현 형식 등)을 체계적으로 평가할 수 있다.
유도 과정 분류 및 미적분 분류와 같은 시퀀스 분류 작업을 통해 모델의 수학적 추론 능력을 평가한다.
BERT 기반 모델과 GPT 모델을 비교 평가하여 각 모델의 수학적 추론 및 일반화 능력을 분석한다.
실험 결과, GPT-4는 in-distribution 성능에서 BERT 기반 모델과 대등하거나 더 나은 성능을 보였지만, 복잡한 수학적 의존 관계를 포함한 교란된 입력에 대해서는 취약한 모습을 보였다. 반면 BERT 기반 모델은 in-distribution 성능은 높지만, 교란된 입력에 대해 크게 성능이 저하되는 것으로 나타났다. 이는 변환기 모델이 수학적 추론에 필요한 구조화된 정보를 선형 텍스트에서 적절히 추론하지 못함을 보여준다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jordan Meado... pada arxiv.org 04-09-2024
https://arxiv.org/pdf/2305.12563.pdfPertanyaan yang Lebih Dalam