Core Concepts
조건부 효과를 가진 PDDL 도메인에서 안전한 행동 모델을 학습하는 알고리즘을 제안한다. 이 알고리즘은 관찰된 궤적으로부터 안전한 행동 모델을 학습할 수 있으며, 이를 통해 학습된 모델로 생성된 계획은 실제 도메인에서도 실행 가능하다.
Abstract
이 논문은 조건부 효과를 가진 PDDL 도메인에서 안전한 행동 모델을 학습하는 Conditional-SAM 알고리즘을 제안한다.
기존의 SAM 학습 알고리즘은 조건부 효과를 다룰 수 없었지만, Conditional-SAM은 이를 지원한다.
Conditional-SAM은 관찰된 궤적으로부터 안전한 행동 모델을 학습한다. 이 모델은 실제 도메인에서도 실행 가능한 계획을 생성할 수 있다.
이 알고리즘의 공간 복잡도, 시간 복잡도, 샘플 복잡도를 분석하였다. 특히 고정된 크기의 조건부 효과에 대해서는 효율적이라는 것을 보였다.
또한 Conditional-SAM을 리프트된 행동 모델과 보편 양화 효과를 가진 도메인으로 확장하였다.
실험 결과, Conditional-SAM은 대부분의 테스트 문제를 완벽하게 해결할 수 있는 행동 모델을 학습할 수 있었다.
Stats
조건부 효과의 최대 크기 n은 고정된 상수이다.
각 행동의 효과에는 최대 하나의 조건부 효과만 존재한다.
Quotes
"조건부 효과를 가진 PDDL 도메인에서 안전한 행동 모델을 학습하는 것은 매우 어려운 문제이다."
"Conditional-SAM 알고리즘은 관찰된 궤적으로부터 안전한 행동 모델을 학습할 수 있다."
"Conditional-SAM의 공간 복잡도, 시간 복잡도, 샘플 복잡도는 조건부 효과의 크기에 의해 결정된다."