이 논문은 언어 모델 정렬을 위한 새로운 접근법인 SALMON을 소개한다. SALMON의 핵심은 지침 가능한 보상 모델이다. 이 모델은 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.
SALMON의 주요 특징은 다음과 같다:
지침 가능한 보상 모델: 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있는 모델을 학습한다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 제어할 수 있다.
원칙 기반 선호도 모델링: 합성 선호도 데이터를 생성할 때 사람이 정의한 원칙을 활용한다. 이를 통해 보상 모델이 다양한 원칙을 이해하고 적용할 수 있게 한다.
RL 시 원칙 개입: RL 학습 단계에서 새로운 원칙을 추가하여 보상 모델의 선호도를 조정할 수 있다. 이를 통해 언어 모델의 행동을 세부적으로 제어할 수 있다.
이러한 접근법을 통해 저자들은 LLaMA-2-70b 모델을 기반으로 Dromedary-2라는 AI 어시스턴트를 개발했다. Dromedary-2는 6개의 In-Context Learning 예시와 31개의 원칙만으로도 기존의 RLHF 기반 모델들을 뛰어넘는 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhiqing Sun,... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2310.05910.pdfDeeper Inquiries