수학 문제 해결을 위한 자동 평가 도구를 제안하여, 기존 도구의 한계를 극복하고 LLM의 성능을 향상시킬 수 있다.
복잡한 수학 문제를 해결하기 위해 조건과 목표를 추출하고, 다중 에이전트 상호작용 시스템을 통해 점진적으로 새로운 조건을 발견하여 문제를 해결하는 방법을 제안한다.
본 연구는 대규모 언어 모델의 수학 문제 해결 능력을 향상시키기 위해 자기 비평 파이프라인을 제안한다. 이 방법은 모델 자체에서 생성된 피드백 신호를 활용하여 언어와 수학 능력을 동시에 향상시킬 수 있다.
LLM은 수학 문제를 해결할 수 있지만, 논리적 오류와 계산 오류가 발생할 수 있다. 이를 해결하기 위해 LLM의 자동 공식화 기능을 활용하여 해결책의 일관성을 검증할 수 있다.
멀티모달 대형 언어 모델(MLLM)의 시각적 수학 문제 해결 능력은 여전히 충분히 평가되고 이해되지 않고 있다. 이를 위해 MATHVERSE라는 종합적인 시각적 수학 벤치마크를 소개하여 MLLM의 진정한 다중 모달 수학적 추론 능력을 공정하고 심도 있게 평가한다.
도구 보강 대규모 언어 모델(TALM)은 지식 검색, 프로그램 실행, 기호 방정식 해결 등의 도구를 활용하여 복잡한 수학 문제 해결 능력을 향상시킬 수 있다.
대규모 언어 모델이 수학 문제 해결 시 관련 없는 조건을 식별하고 무시할 수 있도록 하는 새로운 접근법을 제안한다.
대규모 언어 모델이 수학 문제 해결 시 관련 없는 조건을 식별하고 무시할 수 있도록 하는 새로운 접근법을 제안한다.
현재 언어 모델은 기본적인 추론 능력을 보여주지만, 산술 및 단위 변환과 같은 다양한 기본 기술이 필요한 복잡한 추론 과제에서는 어려움을 겪는다. 본 연구는 이러한 기본 기술이 복잡한 추론 과제로 자연스럽게 일반화될 수 있는지 조사하고, 계층적 커리큘럼 학습을 통해 기술 일반화를 효과적으로 유도할 수 있음을 보여준다.
대규모 언어 모델의 수학적 추론 능력을 종합적으로 평가하기 위해 초등학교 수학 개념과 문제를 포함하는 정밀 수학 평가 벤치마크를 제안한다.