Core Concepts
부분적으로 정렬된 선호도를 가진 사용자의 시간적 목표에 대해 최적의 정책을 합성하는 방법을 제안한다.
Abstract
이 논문은 확률적 시스템(Markov 결정 프로세스)에서 사용자의 부분적으로 정렬된 선호도를 가진 시간적 목표에 대한 선호도 기반 계획 문제를 다룬다.
주요 내용은 다음과 같다:
사용자의 선호도를 표현하기 위해 부분적으로 정렬된 선호도 모델을 도입하고, 이를 계산 모델인 선호도 결정 유한 오토마타(PDFA)로 변환하는 알고리즘을 제안한다.
확률적 시스템에서 부분적으로 정렬된 선호도를 가진 사용자의 목표에 대해 최적의 정책을 합성하는 문제를 다중 목적 MDP 문제로 변환하고, 이를 해결하는 알고리즘을 제안한다.
다양한 확률적 순서 관계(strong, weak, weak*)를 활용하여 정책들을 비교하고 순위를 매기는 방법을 제시한다.
예제를 통해 제안된 방법의 효과를 보여준다.
Stats
확률적 시스템은 Markov 결정 프로세스(MDP)로 모델링된다.
사용자의 선호도는 부분적으로 정렬된 선호도 모델로 표현된다.
선호도 모델은 선호도 결정 유한 오토마타(PDFA)로 변환된다.
최적의 정책은 다중 목적 MDP 문제를 통해 계산된다.
다양한 확률적 순서 관계(strong, weak, weak*)를 활용하여 정책들을 비교한다.
Quotes
"부분적으로 정렬된 선호도를 가진 사용자의 시간적 목표에 대해 최적의 정책을 합성하는 방법을 제안한다."
"확률적 시스템에서 부분적으로 정렬된 선호도를 가진 사용자의 목표에 대해 최적의 정책을 합성하는 문제를 다중 목적 MDP 문제로 변환하고, 이를 해결하는 알고리즘을 제안한다."