Linnk AI herunterladen
•
Autonomer Forschungsassistent
>
Anmelden
Einblick
-
인간 피드백 기반 강화학습에서의 숨겨진 맥락
인간 피드백을 통한 강화학습에서 숨겨진 맥락 이해와 고려
인간 피드백에 기반한 선호도 학습은 숨겨진 맥락으로 인해 예상치 못한 결과를 초래할 수 있으며, 이를 해결하기 위해 분포 선호도 학습 방법을 제안한다.
1