이 논문은 대규모 언어 모델(LLM)의 인간 선호도 정렬을 위한 새로운 접근법인 잠재 거리 기반 정렬 학습(LD-Align)을 소개한다.
기존의 정렬 학습 방법인 RLHF와 DPO는 많은 인간 주석이 필요하여 비용이 많이 든다는 문제가 있다. 이를 해결하기 위해 추가적인 주석 없이도 정렬을 달성할 수 있는 방법을 모색한다.
LD-Align은 고품질 감독 미세 조정 데이터셋을 활용하여 모델을 정렬한다. 이를 위해 자동 인코딩을 통해 생성된 잠재 공간에서 생성 샘플과 실제 샘플 간의 거리를 측정하고, 이를 DPO 기반 정렬 학습의 가이드로 활용한다.
실험 결과, LD-Align은 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 보였다. 또한 잠재 공간 분석을 통해 LD-Align의 효과적인 정렬 능력을 확인할 수 있었다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询