RoMath는 로마니아어 수학 추론 능력을 평가하기 위한 3개의 데이터셋으로 구성되어 있습니다:
각 데이터셋은 다양한 수학 분야와 난이도 수준을 다루고 있습니다. 이를 통해 영어 이외의 언어 모델 개선과 다국어 AI 개발을 촉진하고자 합니다.
로마니아어는 저자원 언어이자 고유한 언어적 특성을 가지고 있어, 영어 중심 모델의 한계를 보완하고 다국어 자원의 필요성을 강조합니다.
다양한 오픈 웨이트 언어 모델을 벤치마크한 결과, 단순 번역만으로는 성능이 크게 저하되어 로마니아어 전용 자원의 필요성이 드러났습니다. 이 연구는 수학 추론 모델 및 알고리즘 개발을 위한 기반을 제공합니다.
To Another Language
from source content
arxiv.org
Głębsze pytania