두 할인 요인을 사용하는 대리 보상에 대한 벨만 방정식은 해의 유일성을 보장하지 않을 수 있으며, 이는 최적 정책 도출에 문제를 야기할 수 있다. 저자는 이 문제를 해결하기 위해 거부 BSCC의 해를 0으로 고정하는 충분 조건을 제안한다.
마르코프 의사결정 프로세스에서 정성적 감시 과제를 달성하면서 정량적 효율성을 최대화하는 최적 제어 정책을 합성한다.