이 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 EURUS 모델과 ULTRAINTERACT 데이터셋을 소개한다.
EURUS는 Mistral-7B와 CodeLLaMA-70B를 기반으로 한 LLM 모델 제품군이다. EURUS 모델은 수학, 코딩, 논리 추론 등 다양한 벤치마크에서 최첨단 성능을 보여준다. 특히 EURUS-70B는 GPT-3.5 Turbo와 비슷한 수준의 추론 능력을 보여주며, LeetCode와 TheoremQA와 같은 어려운 벤치마크에서 기존 오픈소스 모델들을 크게 앞선다.
EURUS의 강력한 성능은 ULTRAINTERACT 데이터셋 덕분이다. ULTRAINTERACT는 복잡한 추론 과제를 위해 특별히 설계된 대규모 고품질 정렬 데이터셋이다. 각 지시문에 대해 ULTRAINTERACT는 (1) 다양한 계획 전략으로 구성된 추론 체인, (2) 환경 및 피드백과의 다중 턴 상호작용 궤적, (3) 선호도 학습을 위한 쌍대 데이터를 포함한다. ULTRAINTERACT를 통해 선호도 학습 기법을 심층 탐구한 결과, 기존 알고리즘 중 DPO는 추론 과제에 적합하지 않은 것으로 나타났다. 이를 바탕으로 새로운 보상 모델링 목적함수를 도출하였고, 이를 통해 EURUS-RM-7B 보상 모델을 개발하였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies