핵심 개념
일반 선호도 모델을 이용하여 인간 피드백으로부터 온라인 반복 강화 학습을 수행하는 새로운 학습 패러다임을 제안하고 이에 대한 이론적 분석을 제공한다.
초록
이 논문은 인간 피드백을 활용한 강화 학습(RLHF)에 대한 새로운 학습 패러다임을 제안하고 이에 대한 이론적 분석을 수행한다. 기존의 보상 기반 RLHF 프레임워크는 보상 함수의 존재와 Bradley-Terry 모델과 같은 강한 가정을 필요로 하며, 보상 모델링의 어려움과 보상 해킹 문제 등의 한계가 있다.
이 논문에서는 일반 선호도 모델을 활용하는 Nash 학습 프레임워크를 제안한다. 이 프레임워크에서는 두 개의 경쟁적인 LLM이 선호도 모델을 통해 상호작용하며, 목표는 어떤 경쟁 정책보다도 선호되는 정책을 생성하면서도 초기 모델과 가까이 있도록 하는 것이다.
이 논문에서는 오프라인 및 온라인 설정 모두에서 KL-정규화된 Nash 학습의 이론적 학습 가능성을 분석한다. 오프라인 설정에서는 데이터셋의 적절한 커버리지 조건 하에서 효율적인 알고리즘을 제안한다. 온라인 배치 학습 설정에서는 선호도 모델의 구조적 조건 하에서 유한 샘플 보장을 제공하는 알고리즘을 제안한다. 이 결과는 보상 모델 없이도 일반 선호도 하에서 학습이 가능함을 보여준다.
통계
선호도 데이터셋 D는 (x, a1, a2, y)의 형태로 구성되며, 여기서 x는 프롬프트, a1과 a2는 두 개의 응답, y는 a1이 a2보다 선호된다는 신호(y=1)를 나타낸다.
선호도 모델 P(a1 ≻ a2 | x, a1, a2)는 프롬프트 x와 두 응답 a1, a2를 입력으로 받아 a1이 a2보다 선호된다는 확률을 출력한다.
인용구
"보상 기반 RLHF는 보상 함수의 존재와 Bradley-Terry 모델과 같은 강한 가정을 필요로 하며, 보상 모델링의 어려움과 보상 해킹 문제 등의 한계가 있다."
"이 논문에서는 일반 선호도 모델을 활용하는 Nash 학습 프레임워크를 제안한다. 이 프레임워크에서는 두 개의 경쟁적인 LLM이 선호도 모델을 통해 상호작용하며, 목표는 어떤 경쟁 정책보다도 선호되는 정책을 생성하면서도 초기 모델과 가까이 있도록 하는 것이다."