기존의 기대 손실이나 가치-위험 측정을 넘어, 손실 분포의 분산을 이해하고 제어하는 것이 중요하다.
본 논문에서는 표준 보렐 공간에서 세 가지 정보 구조 (1단계 지연 정보 공유 패턴, K단계 주기적 정보 공유 패턴, 완전 분산 정보 구조) 하에서 분산 확률 제어 문제를 다루고, 이러한 문제들이 중앙 집중식 MDP로 축소될 수 있음을 보여줍니다. 또한, 완전 분산 제어 문제에서 유한 메모리 로컬 정책이 근사적으로 최적임을 증명하고, K단계 주기적 정보 공유 패턴 문제에 대한 성능 경계를 제공하며, 양자화된 Q-러닝 알고리즘이 근사 최적 솔루션으로 점근적으로 수렴함을 보여줍니다.