Core Concepts
완전 관측 비결정적 계획 영역에 대한 일반화된 정책을 학습하는 방법을 제안한다. 이는 고전적 계획 문제에 대한 일반화된 정책 학습 방법을 확장한 것으로, 비결정적 행동 효과의 불확실성을 초기 상태의 불확실성으로 변환하여 고전적 계획 문제로 해결한다.
Abstract
이 논문은 완전 관측 비결정적 계획(FOND) 영역에 대한 일반화된 정책을 학습하는 방법을 제안한다.
먼저, FOND 문제에 대한 일반화된 정책과 고전적 계획 문제에 대한 일반화된 정책 사이의 관계를 분석한다. 이를 통해 FOND 문제에 대한 일반화된 정책을 고전적 계획 문제에 대한 일반화된 안전 정책으로부터 구축할 수 있음을 보인다.
이를 바탕으로, FOND 문제에 대한 일반화된 정책을 표현하기 위한 언어를 제안한다. 이 언어는 고전적 계획 문제에 대한 일반화된 정책 표현 언어를 확장한 것으로, 상태 제약 조건을 추가하여 데드엔드 상태를 회피하도록 한다.
마지막으로, 이 언어를 사용하여 FOND 문제에 대한 일반화된 정책을 학습하는 방법을 제시한다. 이는 최소 비용 SAT 문제로 정식화되며, 학습된 정책의 정확성을 보장하기 위한 방법도 함께 제안한다.
실험 결과, 제안된 방법을 통해 다양한 FOND 벤치마크 문제에 대한 일반화된 정책을 학습할 수 있었으며, 일부 정책의 정확성을 수학적으로 증명할 수 있었다.
Stats
고전적 계획 문제는 PSPACE-hard이지만, FOND 계획 문제는 EXP-hard이다.
FOND 문제의 데드엔드 상태는 해당 문제의 고전적 릴랙세이션(determinization) 문제의 데드엔드 상태와 관련이 있다.
Quotes
"FOND planning is harder, requiring not just exponential time but exponential space."
"A general policy for a class Q of FOND problems can be obtained from the general policies for QD that are safe, meaning that on a classical problem PD in Q, the policy will not reach a state s that is a dead-end in the 'original' FOND problem P."