SALMON은 최소한의 인간 감독으로 언어 모델을 정렬하는 새로운 접근법이다. 핵심은 지침 가능한 보상 모델로, 이를 통해 사람이 정의한 원칙에 따라 보상 점수를 생성할 수 있다. 이를 통해 RLHF에 의존하지 않고도 언어 모델의 행동을 효과적으로 제어할 수 있다.
CodecLM은 언어 모델을 특정 하류 작업에 맞춰 정렬하기 위해 메타데이터 기반의 고품질 합성 데이터를 생성하는 일반 프레임워크이다.
자기 플레이 언어 모델 정렬 과정에서 다양한 정규화 기법의 효과를 탐구하였다. KL 정규화와 가상 플레이 접근법이 모델 성능 향상에 도움이 될 수 있음을 확인하였다.
언어 모델 정렬을 위한 최적의 KL 제약 강화 학습 솔루션과 베스트-오브-N 정렬 기법 간의 점근적 동등성을 보여줌.
Best-of-N 샘플링은 언어 모델을 인간 선호도에 정렬하는 효과적인 전략이지만, 보상 해킹 문제에 취약하다. 이 연구에서는 근접성 정규화를 도입한 정규화된 Best-of-N (RBoN) 샘플링을 제안하여 보상 해킹 문제를 완화한다.
RLCD는 인간 피드백 없이도 언어 모델을 원하는 원칙(예: 무해성)에 따르도록 정렬하는 방법이다. RLCD는 긍정적 프롬프트와 부정적 프롬프트를 사용하여 모델 출력 간 차이를 극대화하고, 이를 통해 인간 주석 없이도 선호 데이터를 생성한다. 이렇게 생성된 선호 데이터로 선호 모델을 학습하고, 이를 다시 기반 언어 모델 정렬에 활용한다.