이 논문은 언어 모델 정렬을 위한 두 가지 주요 기법인 KL 제약 강화 학습(KL-constrained reinforcement learning)과 베스트-오브-N(best-of-N) 정렬 기법을 분석합니다.
KL 제약 강화 학습 문제의 최적 솔루션을 특성화하고, 이 솔루션이 다른 정렬 기법과 유사한 보상-KL 트레이드오프를 달성하려면 KL 발산이 작아야 함을 보여줍니다.
보상 함수의 누적 모멘트와 Rényi 교차 엔트로피 간의 관계를 밝힙니다. 또한 최적 KL 제약 강화 학습 솔루션이 대수 편차 원리(large deviation principle)를 따른다는 것을 보여줍니다.
메모리 없는 참조 모델과 선형 보상 함수에 대한 가정 하에, 베스트-오브-N 정렬 기법의 출력이 최적 KL 제약 강화 학습 솔루션과 점근적으로 동등함을 입증합니다. 이는 베스트-오브-N의 놀라운 성능을 이론적으로 뒷받침합니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問