일반 대중의 의견을 반영한 규범적 목표와 이를 달성하기 위한 전문가 기반 규칙을 결합하여 언어 모델의 행동을 대중의 의지에 효과적으로 정렬하는 새로운 방법론을 제시합니다.
본 논문에서는 언어 모델의 정렬을 위한 새로운 프레임워크인 EVA(Evolving Alignment via Asymmetric Self-Play)를 제안합니다. EVA는 고정된 프롬프트 분포를 사용하는 기존 RLHF 프레임워크의 한계를 극복하기 위해 비대칭 셀프 플레이를 통해 지속적으로 진화하는 프롬프트 분포를 생성합니다.
약하게 정렬된 언어 모델의 정렬 신호를 활용하여 강력한 언어 모델의 정렬 능력을 향상시키는 새로운 방법인 약-강 선호도 최적화(WSPO)를 소개합니다.
본 논문에서는 자기 학습 기반 강화 학습을 통해 인간의 다양한 선호도를 효과적으로 반영하여 언어 모델의 성능을 향상시키는 MPO(Magnetic Preference Optimization) 프레임워크를 제안합니다.
GDPO는 GFlowNet을 활용하여 기존 RLHF 및 DPO 방법의 한계를 극복하고, 다양성을 유지하면서도 인간의 선호도에 맞춰 정렬된 언어 모델을 생성하는 새로운 방법입니다.
마진 기반 손실 함수를 사용하는 언어 모델 정렬 방식은 선호/비선호 응답 간 확률 변화를 독립적으로 제어하지 못하는 '그레디언트 얽힘' 현상으로 인해 의도치 않은 결과를 초래할 수 있다.
본 논문에서는 인간의 읽기 시간을 예측하는 능력을 향상시키기 위해 언어 모델을 인간의 심리 측정 데이터에 맞춰 미세 조정하는 새로운 기술을 제안합니다.
약한 모델을 사용하여 강한 모델의 성능을 향상시키고 정렬하는 프레임워크를 제안합니다. 이를 통해 점점 복잡해지는 AI 시스템의 정렬을 확장 가능하고 투명하게 달성할 수 있습니다.
전통적인 인간 피드백 강화 학습 접근법은 인간 선호도의 비이성성과 비전이성을 포착하는 데 한계가 있다. 이 논문에서는 자기 플레이 기반 방법을 제안하여 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는다.
혼합 선호 최적화(MPO)는 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장점을 결합하고 단점을 완화하는 새로운 정렬 방법이다.