이 논문은 대규모 언어 모델의 다국어 추론 능력 향상을 위한 방법을 제시한다. 기존 연구에서 제안된 질문 번역 학습 기법을 활용하여 언어 간 정렬을 강화하고, 영어 전문성을 활용하는 두 단계 학습 프레임워크를 소개한다.
첫째, 질문 번역 학습 단계에서 다국어 질문을 영어 질문과 연결하여 언어 간 정렬을 향상시킨다. 둘째, 영어 지시 데이터를 활용하여 모델의 영어 추론 능력을 강화한다. 이를 통해 모델은 영어 전문성을 다국어 상황에 효과적으로 활용할 수 있게 된다.
이 프레임워크를 수학 추론, 코드 기반 추론, 상식 추론 등 다양한 추론 시나리오에 적용하여 성능 향상을 확인했다. 또한 LLaMA2-70B, LLaMA3-70B, Mixtral-8x22B 등 대규모 언어 모델에도 적용하여 다국어 추론 성능을 크게 향상시켰다.
추가로 표현 공간 분석, 추론 과정 일관성 분석 등을 통해 이 접근법이 모델의 내부 작동 방식에 미치는 영향을 심층적으로 탐구했다. 질문 번역 학습이 모델의 다국어 표현 공간을 통일시키고 추론 과정의 일관성을 높이는 데 기여함을 확인했다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Wenhao Zhu,S... kl. arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01345.pdfDybere Forespørgsler