Konsep Inti
최근 개발된 대규모 언어 모델(LLM)의 장문 맥락에서의 수학적 추론 능력을 평가하기 위해 자동화된 벤치마크인 MATHHAY를 소개한다. MATHHAY는 실제 시나리오를 기반으로 다양한 난이도와 입력 길이를 가진 문제를 제공하며, 현재 LLM들이 여전히 장문 맥락에서의 수학적 추론에 어려움을 겪고 있음을 보여준다.
Abstrak
MATHHAY: 대규모 언어 모델의 장문 맥락 수학적 추론 능력 평가를 위한 자동화된 벤치마크
본 논문은 최근 개발된 대규모 언어 모델(LLM)의 장문 맥락에서의 수학적 추론 능력을 평가하기 위해 설계된 자동화된 벤치마크인 MATHHAY를 소개하는 연구 논문입니다.
기존의 벤치마크들은 LLM의 장문 맥락 이해 능력을 평가하는 데는 유용했지만, 실제 시나리오에서 중요한 장문 맥락에서의 수학적 추론 능력을 평가하는 데는 한계가 있었습니다. 이에 본 연구에서는 LLM의 수학적 추론 능력을 정확하게 평가하기 위해 MATHHAY라는 새로운 벤치마크를 제시하고자 합니다.
MATHHAY는 문서 수집, 질문 생성, 품질 관리, haystack 구축의 네 단계를 통해 자동으로 구축되었습니다.
1. 문서 수집
금융 시장 분석, 스포츠 경기 지표, 기후 변화 영향 평가 등 수학적 추론이 필요한 다양한 주제를 선정합니다.
선정된 주제와 관련된 하위 주제 및 쿼리를 생성하고, Tavily Search 엔진을 사용하여 최신 정보가 담긴 문서를 수집합니다.
수집된 문서는 충분한 숫자 값과 풍부한 문맥 정보를 포함하는지 필터링하여 고품질 데이터 세트를 구축합니다.
2. 질문 생성
난이도에 따라 네 가지 유형의 테스트 작업을 설계합니다.
단일 단계, 단일 문서 수학적 추론 작업 (SSSD)
다단계, 단일 문서 수학적 추론 작업 (MSSD)
단일 단계, 다중 문서 수학적 추론 작업 (SSMD)
다단계, 다중 문서 수학적 추론 작업 (MSMD)
각 질문에 대한 답변은 Python 코드로 작성되어 정확성을 보장합니다.
3. 품질 관리
생성된 각 질문에 대해 서로 다른 솔루션을 비교하여 일관성을 확보합니다.
Python 인터프리터를 사용하여 LLM이 생성한 Python 솔루션을 실행하고, 두 가지 답변이 일치하는 경우에만 해당 예제를 벤치마크에 포함합니다.
4. Haystack 구축
실제 시나리오를 모방하기 위해 다양한 크기의 문서 "haystack"을 구축합니다.
각 haystack에는 질문과 관련된 문서와 무관한 문서가 혼합되어 있으며, haystack의 크기가 커질수록 작업의 난이도가 높아집니다.
관련 문서를 무관한 문서에 삽입할 때 다양한 배치 전략을 사용하여 모델의 정보 추출 능력을 평가합니다.