Linnk AI 다운로드
•
자율 연구 보조원
>
로그인
통찰
-
인간 피드백 기반 로봇 강화 학습
보상 과최적화 문제를 해결하기 위한 정규화 기반 솔루션: 로봇 강화 학습에서의 인간 피드백
인간 피드백을 활용하여 보상 함수를 학습할 때 발생할 수 있는 보상 과최적화 문제를 해결하기 위해 새로운 정규화 기법을 제안한다.
1