마르코프 의사결정 과정에서 관찰된 행동으로부터 에이전트의 위험 태도를 나타내는 효용 함수를 학습하는 것이 목표이다.
약하게 연결된 마르코프 의사결정 과정에서 최적 정책의 편향 함수 스팬 H와 상태-행동 공간 크기 SA를 이용하여 ε-최적 정책을 학습하는 데 필요한 샘플 복잡도를 eO(SAH/ε^2)로 제시하였다. 일반적인 마르코프 의사결정 과정의 경우, 새로운 과도 시간 매개변수 B를 도입하여 eO((B+H)SA/ε^2)의 샘플 복잡도를 달성하였다.