Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
온라인 반복 강화 학습: 일반 선호도 모델
온라인 반복 강화 학습: 일반 선호도 모델을 이용한 인간 피드백
일반 선호도 모델을 이용하여 인간 피드백으로부터 온라인 반복 강화 학습을 수행하는 새로운 학습 패러다임을 제안하고 이에 대한 이론적 분석을 제공한다.
1