核心概念
전통적인 인간 피드백 강화 학습 접근법은 인간 선호도의 비이성성과 비전이성을 포착하는 데 한계가 있다. 이 논문에서는 자기 플레이 기반 방법을 제안하여 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는다.
摘要
이 논문은 언어 모델 정렬을 위한 새로운 자기 플레이 기반 방법을 제안한다. 기존의 강화 학습 기반 접근법은 인간 선호도의 비이성성과 비전이성을 충분히 포착하지 못한다는 한계가 있다.
이 논문에서는 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는 Self-Play Preference Optimization (SPPO) 알고리즘을 제안한다. SPPO는 정책 간 자기 플레이 방식으로 내쉬 균형 정책을 근사화하며, 이론적 수렴 보장을 가진다.
실험 결과, SPPO는 기존 방법들에 비해 우수한 성능을 보인다. 특히 AlpacaEval 2.0 벤치마크에서 길이 제어 승률 28.53%를 달성하며, MT-Bench와 Open LLM Leaderboard에서도 강력한 일반화 능력을 보인다. 이러한 성과는 GPT-4와 같은 강력한 외부 감독 없이도 달성되었다는 점에서 주목할 만하다.
统计
제안된 SPPO 알고리즘은 AlpacaEval 2.0 벤치마크에서 길이 제어 승률 28.53%를 달성했다.
SPPO는 MT-Bench에서 평균 점수 7.59점을 기록했다.
SPPO는 Open LLM Leaderboard에서 평균 점수 66.75점을 달성했다.
引用
"전통적인 인간 피드백 강화 학습 접근법은 인간 선호도의 비이성성과 비전이성을 포착하는 데 한계가 있다."
"이 논문에서는 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는 Self-Play Preference Optimization (SPPO) 알고리즘을 제안한다."
"SPPO는 정책 간 자기 플레이 방식으로 내쉬 균형 정책을 근사화하며, 이론적 수렴 보장을 가진다."