Concepts de base
마르코프 의사결정 과정에서 정적 위험 측정치를 최적화하는 기존 동적 프로그래밍 분해 방법은 근본적으로 최적이 아니며, 이는 가정된 안장점 성질이 일반적으로 성립하지 않기 때문이다. 그러나 가치 위험(Value-at-Risk)에 대해서는 최적의 동적 프로그래밍 분해가 가능하다.
Résumé
이 논문은 마르코프 의사결정 과정에서 정적 위험 측정치를 최적화하는 기존 동적 프로그래밍 분해 방법의 한계를 보여준다.
주요 내용은 다음과 같다:
-
조건부 가치 위험(Conditional-Value-at-Risk, CVaR)에 대한 기존 동적 프로그래밍 분해는 근본적으로 최적이 아니며, 이는 가정된 안장점 성질이 일반적으로 성립하지 않기 때문이다. 이는 Chow et al. (2015)의 결과를 반박하는 것이다.
-
엔트로피 가치 위험(Entropic-Value-at-Risk, EVaR)에 대한 동적 프로그래밍 분해 또한 정책 평가 및 최적화 모두에서 정확하지 않다는 것을 보여준다.
-
반면, 가치 위험(Value-at-Risk, VaR)에 대해서는 최적의 동적 프로그래밍 분해가 가능하다. 이는 VaR이 CVaR, EVaR과 달리 안장점 문제에 직면하지 않기 때문이다.
이러한 발견은 위험 회피 알고리즘의 이론적 기반을 더욱 견고히 하는 데 기여할 것으로 기대된다.
Stats
마르코프 의사결정 과정에서 CVaR 최적화를 위한 기존 동적 프로그래밍 분해는 최적이 아니다.
마르코프 의사결정 과정에서 EVaR 평가 및 최적화를 위한 기존 동적 프로그래밍 분해도 정확하지 않다.
마르코프 의사결정 과정에서 VaR 최적화를 위한 최적의 동적 프로그래밍 분해가 가능하다.
Citations
"Even when the original MDP is finite, this DP requires computing the value function for a continuous state space, and thus, has been considered inefficient in practice."
"We make the following contributions in this paper. First, we show in Section 3 that the popular DP for optimizing CVaR in MDPs may not recover the optimal value function and policy regardless of how finely one discretizes the risk level in the augmented states."
"Second, we show in Section 4 that the DP for optimizing the Entropic-Value-at-Risk in MDPs, proposed by Ni and Lai (2022), does not compute the correct value function even when the policy is fixed."