Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
노이즈 선호도에 강건한 선호도 기반 강화 학습
선호도 기반 강화 학습에서 노이즈 선호도에 강건한 RIME 알고리즘
RIME은 노이즈가 있는 선호도에서도 효과적으로 보상 함수를 학습할 수 있는 강건한 선호도 기반 강화 학습 알고리즘이다.
1