Core Concepts
대규모 사전 훈련 언어 모델의 성능을 높이기 위해 상황 맥락 학습을 활용하는데, 이때 선택되는 예시가 중요한 역할을 한다. 본 연구에서는 순차적으로 예시를 선택하는 강화 학습 기반 방법론 RetICL을 제안한다.
Abstract
이 논문은 대규모 사전 훈련 언어 모델의 성능을 높이기 위해 상황 맥락 학습을 활용하는 방법을 다룬다. 상황 맥락 학습에서는 모델에 예시를 제공하여 새로운 과제를 수행하도록 하는데, 이때 선택되는 예시가 중요한 역할을 한다. 기존 연구에서는 예시를 독립적으로 평가하여 선택했지만, 이 논문에서는 예시 간의 상호작용과 순서를 고려하는 방법론 RetICL을 제안한다.
RetICL은 상황 맥락 예시 선택 문제를 마르코프 의사결정 과정으로 정의하고, 강화 학습을 사용하여 예시 검색기 모델을 학습한다. 이 모델은 현재 문제와 이전에 선택된 예시를 고려하여 다음 예시를 선택한다. 또한 정답률과 모델의 확신도를 반영한 보상 함수를 사용한다.
실험 결과, RetICL은 수학 문제 풀이와 과학 문제 풀이 과제에서 기존 방법들을 능가하거나 동등한 성능을 보였다. 또한 정성적 분석을 통해 RetICL이 암묵적으로 문제 해결 전략을 학습하는 것을 확인했다.
Stats
수학 문제 풀이 과제에서 RetICL은 88.58%의 정확도를 달성했다.
과학 문제 풀이 과제에서 RetICL은 76.13%의 정확도를 달성했다.
Quotes
"RetICL은 현재 문제와 이전에 선택된 예시를 고려하여 다음 예시를 선택한다."
"RetICL은 정답률과 모델의 확신도를 반영한 보상 함수를 사용한다."