Centrala begrepp
(N, K)-퍼즐은 언어 모델이 N개의 정수를 사용하여 목표 값 K에 도달하도록 요구하는 일반화된 버전의 24-퍼즐로, 언어 모델의 계산 능력, 논리적 추론 능력, 단계별 수학적 솔루션 생성 능력을 평가하는 비용 효율적인 테스트베드를 제공한다.
Sammanfattning
이 논문은 강화 학습(RL) 알고리즘의 성능을 평가하기 위한 비용 효율적이고 표준화된 테스트베드로 (N, K)-퍼즐을 소개한다. (N, K)-퍼즐은 N개의 정수를 사용하여 목표 값 K에 도달하는 것을 요구하는 일반화된 버전의 24-퍼즐이다. 이를 통해 언어 모델의 계산 능력, 논리적 추론 능력, 단계별 수학적 솔루션 생성 능력을 평가할 수 있다.
실험에서는 다양한 RL 알고리즘(PPO, DPO, IPO)을 (N, K)-퍼즐에 적용하여 성능을 비교하였다. PPO의 경우 실제 보상 함수를 사용할 때는 지속적으로 성능이 향상되었지만, 보상 모델을 사용할 때는 후반부에 성능이 저하되는 문제가 발생했다. DPO와 IPO는 보상 모델 학습 없이도 성능을 향상시킬 수 있었지만, 분포 외 데이터에 대한 일반화 능력이 제한적이었다.
(N, K)-퍼즐은 언어 모델의 RL 훈련을 위한 표준화되고 비용 효율적인 테스트베드로 활용될 수 있으며, 더 효과적인 RL 전략을 개발하는 데 도움이 될 것으로 기대된다.
Statistik
학습 데이터셋에서 정답률은 43.5%였고, 분포 외 데이터셋에서는 8.8%였다.
보상 모델의 정답률은 훈련 데이터셋에서 62.5%, 분포 내 테스트셋에서 60%, 분포 외 테스트셋에서 10.5%(n=5) 및 12.7%(n=20)였다.
PPO 알고리즘에서 실제 보상 함수를 사용할 때는 지속적으로 성능이 향상되었지만, 보상 모델을 사용할 때는 후반부에 성능이 저하되었다.
Citat
"PPO with ground truth rewards consistently improved performance, PPO with a trained RM suffered late-stage performance drops due to the RM being 'hacked'."
"Although DPO and IPO avoid RM training for simplicity of implementation, we observe limited generalization from in-distribution to out-of-distribution prompts, constraining their potential in developing versatile generative LMs."