Core Concepts
SALMON은 최소한의 인간 감독으로 언어 모델을 정렬하는 새로운 접근법이다. 핵심은 지침 가능한 보상 모델로, 이를 통해 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.
Abstract
이 논문은 언어 모델 정렬을 위한 새로운 접근법인 SALMON을 소개한다. SALMON의 핵심은 지침 가능한 보상 모델이다. 이 모델은 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.
SALMON의 주요 특징은 다음과 같다:
지침 가능한 보상 모델: 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있는 모델을 학습한다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 제어할 수 있다.
원칙 기반 선호도 모델링: 합성 선호도 데이터를 생성할 때 사람이 정의한 원칙을 활용한다. 이를 통해 보상 모델이 다양한 원칙을 이해하고 적용할 수 있게 한다.
RL 시 원칙 개입: RL 학습 단계에서 새로운 원칙을 추가하여 보상 모델의 선호도를 조정할 수 있다. 이를 통해 언어 모델의 행동을 세부적으로 제어할 수 있다.
이러한 접근법을 통해 저자들은 LLaMA-2-70b 모델을 기반으로 Dromedary-2라는 AI 어시스턴트를 개발했다. Dromedary-2는 6개의 In-Context Learning 예시와 31개의 원칙만으로도 기존의 RLHF 기반 모델들을 뛰어넘는 성능을 보였다.
Stats
기존 RLHF 기반 모델들은 20,000개 이상의 인간 작성 응답 데모와 1,000,000개 이상의 인간 평가 데이터를 사용했지만, Dromedary-2는 6개의 In-Context Learning 예시와 31개의 원칙만으로 더 나은 성능을 보였다.
Dromedary-2는 MT-Bench 점수에서 7.4점을 받아 기존 최고 모델인 LLaMA-2-Chat-70b(6.9점)을 능가했다.
Quotes
"SALMON은 최소한의 인간 감독으로 언어 모델을 정렬하는 새로운 접근법이다."
"핵심은 지침 가능한 보상 모델로, 이를 통해 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다."
"이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다."