Core Concepts
完全観測可能な非決定的な計画ドメインにおいて、小さな訓練インスタンスから一般化された方策を学習する手法を提案する。この手法は、決定的な緩和問題を解くことで非決定的な問題を解くことができる。
Abstract
本論文では、完全観測可能な非決定的な計画ドメイン(FOND)における一般化された方策の学習手法を提案している。
まず、一般化された方策の定義と表現言語について説明する。一般化された方策は、ルールと制約から構成され、ルールは状態遷移を記述し、制約は避けるべき状態を表す。
次に、FOND問題を解くための一般化された方策を学習する手法を提案する。この手法では、FOND問題の決定的な緩和問題を解くための一般化された方策を学習し、その方策が安全であることを確認する。安全な方策とは、FOND問題の死亡状態に到達しないものである。この安全な方策から、FOND問題を解く一般化された方策を構築する。
提案手法を複数のベンチマークドメインで評価し、学習された一般化された方策の正しさを証明する。また、状態制約に加えて遷移制約を用いた変形手法についても説明する。
Stats
FOND計画問題は、古典的な計画問題よりも計算量が大きい(EXP-hard)。
古典的な計画問題は PSPACE-hardであるのに対し、