Core Concepts
다국어 추론 능력 향상을 위해 우세 언어의 추론 과정을 비우세 언어의 추론 과정과 정렬하는 다국어 선호도 최적화 프레임워크를 제안합니다.
Abstract
이 논문은 다국어 추론 능력 향상을 위한 새로운 프레임워크인 MAPO(Multilingual-Alignment-as-Preference Optimization)를 제안합니다. MAPO는 우세 언어(주로 영어)의 추론 과정을 비우세 언어의 추론 과정과 정렬하여 다국어 추론 능력을 향상시킵니다.
구체적으로 MAPO는 두 단계로 구성됩니다:
선호도 추정: 기존 모델에서 우세 언어와 비우세 언어의 추론 과정을 샘플링하고, 이를 기반으로 번역 모델을 활용하여 두 추론 과정의 정렬 정도를 선호도로 추정합니다.
선호도 최적화: 추정된 선호도를 바탕으로 PPO(Proximal Policy Optimization) 또는 DPO(Direct Preference Optimization)를 사용하여 비우세 언어의 추론 과정을 우세 언어의 추론 과정과 정렬되도록 최적화합니다.
실험 결과, MAPO는 다양한 기반 모델에서 세 가지 벤치마크 데이터셋(MSVAMP, MGSM, MNumGLUESub)에 걸쳐 평균 16.2%, 6.1%, 13.3%의 정확도 향상을 달성하며, 특히 도메인 외 데이터셋 MSVAMP에서 두드러진 성능 향상을 보였습니다. 이는 MAPO가 다국어 추론 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.
Stats
182명의 학생이 감자 퓨레를 추천했고, 나머지 학생들은 베이컨을 추천했습니다. 감자 퓨레를 추천한 학생보다 166명 더 많은 학생이 베이컨을 추천했다면, 베이컨을 추천한 학생은 몇 명일까요?
Quotes
"다국어 추론 능력 향상을 위해 우세 언어의 추론 과정을 비우세 언어의 추론 과정과 정렬하는 다국어 선호도 최적화 프레임워크를 제안합니다."
"MAPO는 다양한 기반 모델에서 세 가지 벤치마크 데이터셋(MSVAMP, MGSM, MNumGLUESub)에 걸쳐 평균 16.2%, 6.1%, 13.3%의 정확도 향상을 달성하며, 특히 도메인 외 데이터셋 MSVAMP에서 두드러진 성능 향상을 보였습니다."