SALMON은 최소한의 인간 감독으로 언어 모델을 정렬하는 새로운 접근법이다. 핵심은 지침 가능한 보상 모델로, 이를 통해 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.