본 연구 논문에서는 대규모 언어 모델(LLM)의 수학적 추론 능력을 향상시키기 위해 **오류 주입 자가 편집(eRror-Injected Self-Editing, RISE)**이라는 새로운 선호도 학습 프레임워크를 제안합니다.
LLM은 뛰어난 수학적 추론 및 계산 능력을 보여주지만, 종종 발생하는 미묘한 오류(예: 계산 오류, 잘못된 대입, 계산 항목 누락)로 인해 완전한 수학적 잠재력을 발휘하지 못하는 경우가 많습니다.
기존 연구에서는 더 강력한 LLM에서 추론 기술을 증류하거나 단계별 응답 쌍에 선호도 학습을 적용하여 수학적 능력을 향상시키려고 시도했습니다. 그러나 이러한 방법은 오류와 관련 없는 차이점을 포함하는 샘플을 사용하기 때문에 모델이 미묘한 오류에 집중하는 데 방해가 될 수 있습니다.
RISE는 LLM 자체를 사용하여 올바른 솔루션의 일부 토큰에 미묘한 오류를 주입하여 오류 완화를 위한 어려운 쌍을 구성합니다. 구체적으로 RISE는 다음과 같은 단계로 작동합니다.
RISE는 세분화된 샘플링이나 선호도 주석 없이도 미리 정의된 오류와 해당 토큰에 집중하도록 학습 목표를 더욱 구체화합니다. 또한 자가 편집된 쌍이 매우 유사하여 올바른 솔루션의 가능성을 쉽게 감소시킬 수 있기 때문에 학습을 안정화하기 위해 음의 로그 우도 손실을 도입합니다.
Qwen2 및 Llama-3.1을 포함한 다양한 LLM을 사용한 실험을 통해 RISE의 효과를 검증했습니다. RISE-QWEN2-7B는 GSM8K에서 3.0%, MATH에서 7.9%의 정확도 향상을 달성했으며 RISE-LLAMA-3.1-8B는 각각 3.9% 및 2.7%의 향상을 달성했습니다. 또한 RISE-QWEN2-72B 및 RISE-LLAMA-3.1-70B는 일부 최첨단 비공개 LLM과 비슷하거나 뛰어난 성능을 보였습니다. 자세한 오류 분석 결과 RISE는 LLM이 미리 정의된 미묘한 오류를 추가로 방지하는 데 도움이 되는 것으로 나타났습니다.
본 연구는 LLM의 수학적 추론 능력을 향상시키기 위한 새로운 접근 방식인 RISE를 제시했습니다. RISE는 자가 편집을 통해 미묘한 오류를 대상으로 하여 LLM이 복잡한 수학 문제를 더 잘 해결할 수 있도록 합니다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы