Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
대규모 언어 모델의 선호도 미세 조정
대규모 언어 모델의 선호도 미세 조정은 최적이지 않은 온-정책 데이터를 활용해야 한다
온-정책 샘플링과 음의 경사도를 활용하는 것이 오프라인 및 최대 우도 기반 방법보다 선호도 미세 조정에 효과적이다.
1