Kernkonzepte
RMDPs의 핵심 메시지는 평균 및 Blackwell 최적성에 대한 연구 결과를 요약하는 것입니다.
Zusammenfassung
Robust Markov Decision Processes (RMDPs)은 순차적 의사 결정을 위한 폭넓게 사용되는 프레임워크이다.
RMDPs는 할인된 반환을 최대화하는 것이 목표인 경우에 대해 광범위하게 연구되었지만, 평균 최적성 및 Blackwell 최적성에 대해는 적은 지식이 있다.
이 논문에서는 할인된 반환 이상의 RMDPs에 대한 몇 가지 기본 결과를 증명한다.
평균 최적 정책은 sa-직사각형 RMDPs의 경우 정책을 정적 및 결정론적으로 선택할 수 있음을 보여준다.
Blackwell 최적성에 대한 연구에서는 근사 Blackwell 최적 정책이 항상 존재함을 보여준다.
평균 및 Blackwell 최적성 사이의 관계를 논의하고 최적 평균 반환을 계산하기 위한 여러 알고리즘을 설명한다.
이 연구는 RMDPs와 확률 게임 간의 연결점을 활용한다.
Statistiken
할인 요소가 1에 충분히 가까운 모든 할인 요소에 대해 할인 최적 정책이 남아있을 수 있다.
Zitate
"평균 최적 정책은 sa-직사각형 RMDPs의 경우 정책을 정적 및 결정론적으로 선택할 수 있음을 보여준다."
"근사 Blackwell 최적 정책이 항상 존재함을 보여준다."