核心概念
마르코프 체인의 기대 정지 시간을 T로 제한하여 기대 총 보상을 최적화하는 문제는 Positivity 문제와 상호 환원 가능하며, 이는 오랫동안 미해결된 문제이다. 그러나 근사 해를 구하는 문제는 지수 시간 내에 해결할 수 있다.
要約
이 논문은 마르코프 체인의 기대 정지 시간을 T로 제한하여 기대 총 보상을 최적화하는 문제를 다룬다.
먼저, 이 문제가 Positivity 문제와 상호 환원 가능함을 보인다. Positivity 문제는 오랫동안 미해결된 문제로, 이 결과는 마르코프 체인의 기대 정지 시간을 고려한 최적화 문제 역시 매우 어려운 문제임을 시사한다.
그러나 근사 해를 구하는 문제는 지수 시간 내에 해결할 수 있음을 보인다. 구체적으로, 마르코프 체인의 경우 로그 시간에 지수 시간 내에, MDP의 경우 지수 공간에 로그 시간 내에 근사 해를 구할 수 있다.
이를 통해 기대 정지 시간을 고려한 최적화 문제에 대한 정확한 해를 구하기는 어렵지만, 근사 해를 효율적으로 구할 수 있음을 보여준다.
統計
마르코프 체인의 상태 전이 확률 행렬 M의 t번째 거듭제곱 행렬 Mt의 (1,2) 성분이 양수가 되는 시점 t를 찾는 문제는 Positivity 문제와 상호 환원 가능하다.
마르코프 체인의 상태 전이 확률 행렬 M의 t번째 거듭제곱 행렬 Mt의 (1,2) 성분이 0이 되는 시점 t를 찾는 문제는 Skolem 문제와 상호 환원 가능하다.
引用
마르코프 체인의 기대 정지 시간을 고려한 최적화 문제를 해결하는 것은 Positivity 문제를 해결하는 것과 동등한 난이도의 문제이다.
마르코프 체인의 기대 정지 시간을 고려한 최적화 문제의 근사 해를 구하는 것은 지수 시간 내에 가능하다.