이 논문은 준-쌍곡선 할인을 이용한 강화 학습에 대해 다룬다. 전통적인 지수 할인이나 평균 보상 설정은 인간의 행동을 정확히 포착하지 못하는데, 준-쌍곡선 할인은 즉각적인 만족에 대한 편향을 모델링할 수 있다.
그러나 준-쌍곡선 할인에서는 최적 정책이 시간에 따라 달라질 수 있어, 나이브하거나 충동적인 미래 자아가 처음에 최적이었던 정책에서 벗어날 수 있다. 이를 방지하기 위해 마르코프 완전 균형(MPE) 개념이 도입되었다.
본 연구에서는 MPE를 찾는 최초의 모델 없는 강화 학습 알고리즘을 제안한다. 두 시간 척도 분석을 통해 알고리즘이 수렴하면 그 극한이 MPE임을 보였다. 또한 재고 관리 시스템 실험에서 다양한 MPE를 성공적으로 식별하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by S.R. Eshwar,... lúc arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10583.pdfYêu cầu sâu hơn