이 논문은 강화 학습(RL) 알고리즘의 성능을 평가하기 위한 비용 효율적이고 표준화된 테스트베드로 (N, K)-퍼즐을 소개한다. (N, K)-퍼즐은 N개의 정수를 사용하여 목표 값 K에 도달하는 것을 요구하는 일반화된 버전의 24-퍼즐이다. 이를 통해 언어 모델의 계산 능력, 논리적 추론 능력, 단계별 수학적 솔루션 생성 능력을 평가할 수 있다.
실험에서는 다양한 RL 알고리즘(PPO, DPO, IPO)을 (N, K)-퍼즐에 적용하여 성능을 비교하였다. PPO의 경우 실제 보상 함수를 사용할 때는 지속적으로 성능이 향상되었지만, 보상 모델을 사용할 때는 후반부에 성능이 저하되는 문제가 발생했다. DPO와 IPO는 보상 모델 학습 없이도 성능을 향상시킬 수 있었지만, 분포 외 데이터에 대한 일반화 능력이 제한적이었다.
(N, K)-퍼즐은 언어 모델의 RL 훈련을 위한 표준화되고 비용 효율적인 테스트베드로 활용될 수 있으며, 더 효과적인 RL 전략을 개발하는 데 도움이 될 것으로 기대된다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yufeng Zhang... في arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07191.pdfاستفسارات أعمق