이 논문은 언어 모델 정렬을 위한 새로운 접근법인 SALMON을 소개한다. SALMON의 핵심은 지침 가능한 보상 모델이다. 이 모델은 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.
SALMON의 주요 특징은 다음과 같다:
지침 가능한 보상 모델: 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있는 모델을 학습한다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 제어할 수 있다.
원칙 기반 선호도 모델링: 합성 선호도 데이터를 생성할 때 사람이 정의한 원칙을 활용한다. 이를 통해 보상 모델이 다양한 원칙을 이해하고 적용할 수 있게 한다.
RL 시 원칙 개입: RL 학습 단계에서 새로운 원칙을 추가하여 보상 모델의 선호도를 조정할 수 있다. 이를 통해 언어 모델의 행동을 세부적으로 제어할 수 있다.
이러한 접근법을 통해 저자들은 LLaMA-2-70b 모델을 기반으로 Dromedary-2라는 AI 어시스턴트를 개발했다. Dromedary-2는 6개의 In-Context Learning 예시와 31개의 원칙만으로도 기존의 RLHF 기반 모델들을 뛰어넘는 성능을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhiqing Sun,... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2310.05910.pdfYêu cầu sâu hơn