이 논문은 대형 언어 모델(LLM) 정렬을 위한 새로운 접근법을 제시합니다. 기존 연구는 주로 인간 또는 AI 피드백에 의존하고 특정 유형의 선호도 데이터셋에 접근할 수 있다고 가정했습니다. 그러나 저자들은 이러한 데이터셋의 효과성에 의문을 제기하고 전문가 데모 데이터로 정렬하는 것이 더 현실적인 시나리오를 탐구합니다.
저자들은 순차적 의사결정 프레임워크를 구축하여 데모 데이터셋을 사용하여 LLM을 정렬하는 문제를 정식화합니다. 역강화 학습과 모방 학습에서 얻은 통찰을 바탕으로, 다양한 발산 최소화 접근법을 소개합니다. 이 분석은 이러한 다양한 접근법의 질량 포괄 및 모드 추구 행동을 강조합니다. 또한 고전적인 감독 미세 조정 방법의 장단점을 자세히 설명합니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究