핵심 개념
사람의 피드백을 활용한 강화학습(RLHF)은 대규모 언어 모델의 성능 향상을 위한 핵심 기술이지만, 보상 모델 설계와 강화학습 알고리즘 선택 등 근본적인 한계가 존재한다.
초록
이 논문은 RLHF의 핵심 구성 요소인 보상 모델을 중심으로 RLHF 기술을 분석한다. 주요 내용은 다음과 같다:
-
RLHF의 필요성: 사전 학습된 언어 모델의 목적 함수와 사용자 목표 간의 불일치 문제를 해결하기 위해 RLHF가 제안되었다.
-
RLHF의 정식화: 언어 모델의 텍스트 생성 과정을 순차적 의사결정 과정으로 모델링하고, 보상 함수의 역할을 강조한다.
-
보상 모델의 한계:
- 보상 모델의 일반화 실패: 제한된 피드백 데이터로 인한 보상 모델의 잘못된 일반화
- 희소한 피드백: 완성된 출력에 대한 피드백만 존재하는 문제
- 선호도 평균화: 다수의 사용자 선호도를 평균화하여 개별 사용자의 선호도를 반영하지 못함
-
불완전한 보상을 활용한 강화학습의 문제:
- 보상 모델의 오류로 인한 정책의 잘못된 최적화
- 학습된 정책이 사용자 선호와 부정렬될 수 있음
-
RLHF 관련 연구 동향 리뷰:
- 언어 모델 사전 학습 및 RLHF 개요
- 사람 피드백의 특성과 수집 방법
- 보상 모델링 및 RLHF 학습 알고리즘
- RLHF 모델의 한계와 개선 방향
이 논문은 RLHF의 근본적인 한계를 분석하고, 향후 연구 방향을 제시한다.
통계
대규모 언어 모델의 텍스트 생성 과정은 수만 개의 토큰으로 구성된 매우 큰 행동 공간을 가진다.
사람 피드백 데이터는 전체 입력-출력 쌍 중 극히 일부만 커버한다(context coverage κ와 output coverage ρ가 매우 작음).
사람 피드백은 완성된 출력에 대해서만 제공되어 희소하다.
인용구
"RLHF는 게임 마스터링을 위해 설계된 방법을 효과적으로 대규모 언어 모델의 사용자 목표 정렬에 사용하는 것이 과연 가능한가?"
"현재 RLHF 연구는 초기 설계 선택을 개선하는 데 집중되어 있지만, 그 근본적인 한계는 여전히 명확하지 않다."
"보상 모델의 일반화 실패, 희소한 피드백, 선호도 평균화 등의 문제는 RLHF 모델의 성능에 심각한 영향을 미친다."