Linnk AI 다운로드
•
자율 연구 보조원
>
로그인
통찰
-
대화형 강화 학습에서의 벨만 오차 분포 교정
대화형 강화 학습에서 벨만 오차의 비대칭성 감소를 통한 효율적인 가치 함수 학습
대화형 강화 학습에서 가치 함수 학습 시 발생하는 벨만 오차의 비대칭성을 감소시켜 정규 분포에 가까운 오차 분포를 만들어 최소 제곱법의 가정을 만족시키는 방법을 제안한다.
1