이 논문은 비동기 확률적 근사(SA) 알고리즘의 안정성과 수렴성을 연구한다. 특히 평균 보상 반감 마르코프 의사결정 과정(SMDP)에 적용되는 경우에 초점을 맞춘다.
주요 내용은 다음과 같다:
보카르-메인의 안정성 증명 방법을 확장하여 더 일반적인 잡음 조건에서도 비동기 SA 알고리즘의 안정성을 보장하는 결과를 제시한다.
이러한 SA 이론적 결과를 활용하여, 기존의 상대 가치 반복(RVI) Q-러닝 알고리즘을 일반화한 새로운 알고리즘을 제안한다. 이 알고리즘은 최적 보상률 추정을 위한 새로운 단조성 조건을 도입하여 기존 알고리즘의 적용 범위를 크게 확장한다.
제안된 일반화된 RVI Q-러닝 알고리즘의 수렴성을 입증한다. 이를 통해 기존 RVI Q-러닝 알고리즘의 안정성 문제를 해결하고 더 넓은 범위의 SMDP 문제에 적용할 수 있게 된다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Huizhen Yu, ... ב- arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.03915.pdfשאלות מעמיקות