Core Concepts
대규모 언어 모델을 인간의 가치와 의도에 맞추기 위해 토큰 수준에서 직접 선호도 최적화를 수행하는 새로운 접근법을 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추기 위한 새로운 접근법인 토큰 수준 직접 선호도 최적화(TDPO)를 소개한다. 기존의 방법들은 전체 응답 생성에 초점을 맞추었지만, TDPO는 토큰 수준에서 정책을 최적화하여 정렬 성능과 생성 다양성의 균형을 개선한다.
TDPO는 토큰 수준의 보상 시스템과 전방 KL 발산 제약을 활용하여 KL 발산을 효과적으로 조절한다. 실험 결과, TDPO는 감정 생성 및 단일 턴 대화 데이터셋에서 DPO보다 우수한 성능을 보이며, PPO 기반 RLHF 방법에 비해 생성된 응답의 품질을 크게 향상시킨다. 이를 통해 TDPO가 LLM의 정렬, 품질 및 다양성 향상에 기여할 수 있음을 보여준다.
Stats
토큰 수준 보상 시스템을 활용하여 KL 발산을 효과적으로 조절할 수 있다.
감정 생성 및 단일 턴 대화 데이터셋에서 DPO보다 우수한 성능을 보인다.
PPO 기반 RLHF 방법에 비해 생성된 응답의 품질을 크게 향상시킨다.
Quotes
"토큰 수준 직접 선호도 최적화(TDPO)는 대규모 언어 모델을 인간의 가치와 의도에 맞추기 위한 새로운 접근법이다."
"TDPO는 토큰 수준의 보상 시스템과 전방 KL 발산 제약을 활용하여 KL 발산을 효과적으로 조절한다."
"TDPO는 감정 생성 및 단일 턴 대화 데이터셋에서 DPO보다 우수한 성능을 보이며, PPO 기반 RLHF 방법에 비해 생성된 응답의 품질을 크게 향상시킨다."