이 논문은 준-쌍곡선 할인을 이용한 강화 학습에 대해 다룬다. 전통적인 지수 할인이나 평균 보상 설정은 인간의 행동을 정확히 포착하지 못하는데, 준-쌍곡선 할인은 즉각적인 만족에 대한 편향을 모델링할 수 있다.
그러나 준-쌍곡선 할인에서는 최적 정책이 시간에 따라 달라질 수 있어, 나이브하거나 충동적인 미래 자아가 처음에 최적이었던 정책에서 벗어날 수 있다. 이를 방지하기 위해 마르코프 완전 균형(MPE) 개념이 도입되었다.
본 연구에서는 MPE를 찾는 최초의 모델 없는 강화 학습 알고리즘을 제안한다. 두 시간 척도 분석을 통해 알고리즘이 수렴하면 그 극한이 MPE임을 보였다. 또한 재고 관리 시스템 실험에서 다양한 MPE를 성공적으로 식별하였다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by S.R. Eshwar,... às arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10583.pdfPerguntas Mais Profundas