Core Concepts
대화형 언어 모델의 성능을 향상시키기 위해 선호도 피드백을 활용하여 모델이 스스로 개선되도록 하는 직접 내쉬 최적화 기법을 제안한다.
Abstract
이 논문은 대화형 언어 모델(LLM)의 성능 향상을 위해 선호도 피드백을 활용하는 직접 내쉬 최적화(DNO) 기법을 제안한다. 기존의 강화학습 기반 접근법은 보상 학습과 정책 최적화를 분리하는데, 이는 복잡한 선호도 관계를 표현하는 데 한계가 있다. DNO는 선호도 함수를 직접 최적화하는 접근법으로, 안정성과 확장성을 갖추고 있다.
DNO는 다음과 같은 핵심 구성요소를 가진다:
선호도 함수를 통해 정의된 기대 승률을 내부 보상 함수로 사용
배치 온-정책 업데이트를 통해 안정적이고 효율적인 최적화 수행
충분한 마진을 가진 선호도 쌍을 선별하여 학습
강력한 교사 모델(GPT-4)의 출력을 활용하여 성능 향상
이러한 설계를 통해 DNO는 이론적 보장과 실용적 확장성을 모두 갖추고 있다. 실험 결과, DNO를 통해 최적화된 7B 모델이 GPT-4-Turbo 대비 33%의 최고 승률을 달성하며, 더 큰 모델들도 능가하는 성과를 보였다.
Stats
제안된 7B 모델 Orca-2.5는 GPT-4-Turbo 대비 33%의 승률을 달성했다.
이는 초기 모델 대비 26%p 향상된 결과이다(7% → 33%).
Orca-2.5는 Mistral Large, Self-Rewarding LM(70B) 등 더 큰 모델들도 능가했다.
Quotes
"최근 연구에서는 보상 최대화의 가정을 벗어나 일반적인 선호도 함수를 직접 최적화하는 접근법이 제안되고 있다."
"DNO는 단일 목적 함수로 안정성과 확장성을 갖추고 있으며, 이론적 일반성도 보장한다."
"DNO는 배치 온-정책 업데이트와 회귀 기반 목적 함수를 사용하여 구현이 간단하고 효율적이다."