이 논문은 언어 모델 정렬을 위한 새로운 자기 플레이 기반 방법을 제안한다. 기존의 강화 학습 기반 접근법은 인간 선호도의 비이성성과 비전이성을 충분히 포착하지 못한다는 한계가 있다.
이 논문에서는 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는 Self-Play Preference Optimization (SPPO) 알고리즘을 제안한다. SPPO는 정책 간 자기 플레이 방식으로 내쉬 균형 정책을 근사화하며, 이론적 수렴 보장을 가진다.
실험 결과, SPPO는 기존 방법들에 비해 우수한 성능을 보인다. 특히 AlpacaEval 2.0 벤치마크에서 길이 제어 승률 28.53%를 달성하며, MT-Bench와 Open LLM Leaderboard에서도 강력한 일반화 능력을 보인다. 이러한 성과는 GPT-4와 같은 강력한 외부 감독 없이도 달성되었다는 점에서 주목할 만하다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yue Wu,Zhiqi... : arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00675.pdfDaha Derin Sorular