이 논문은 마르코프 체인의 기대 정지 시간을 T로 제한하여 기대 총 보상을 최적화하는 문제를 다룬다.
먼저, 이 문제가 Positivity 문제와 상호 환원 가능함을 보인다. Positivity 문제는 오랫동안 미해결된 문제로, 이 결과는 마르코프 체인의 기대 정지 시간을 고려한 최적화 문제 역시 매우 어려운 문제임을 시사한다.
그러나 근사 해를 구하는 문제는 지수 시간 내에 해결할 수 있음을 보인다. 구체적으로, 마르코프 체인의 경우 로그 시간에 지수 시간 내에, MDP의 경우 지수 공간에 로그 시간 내에 근사 해를 구할 수 있다.
이를 통해 기대 정지 시간을 고려한 최적화 문제에 대한 정확한 해를 구하기는 어렵지만, 근사 해를 효율적으로 구할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Krishnendu C... at arxiv.org 09-11-2024
https://arxiv.org/pdf/2104.07278.pdfDeeper Inquiries