Belangrijkste concepten
에이전트가 언어로 지정할 수 있는 다양한 문제를 동일한 환경에서 해결할 수 있도록 하는 것이 바람직하다. 이를 위해 에이전트는 사전에 학습한 기술을 재사용하여 새로운 작업에 대해 합성적으로 일반화할 수 있어야 한다. 이 문제를 해결하기 위해 우리는 에이전트가 먼저 환경에서 모든 고수준 목표를 달성할 수 있는 충분한 기술 원시를 학습하는 프레임워크를 제안한다. 그런 다음 에이전트는 이러한 기술 원시를 논리적으로 그리고 시간적으로 유연하게 합성하여 정규 언어로 표현된 시간적 논리 사양을 증명 가능하게 달성할 수 있다. 이를 통해 에이전트는 복잡한 시간적 논리 작업 사양을 거의 최적의 행동으로 매핑할 수 있게 된다.
Samenvatting
이 논문은 강화 학습 에이전트가 언어로 지정할 수 있는 다양한 문제를 동일한 환경에서 해결할 수 있도록 하는 방법을 제안한다.
- 에이전트는 먼저 환경에서 모든 고수준 목표를 달성할 수 있는 충분한 기술 원시를 학습한다.
- 에이전트는 이러한 기술 원시를 논리적으로 그리고 시간적으로 유연하게 합성하여 정규 언어로 표현된 시간적 논리 사양을 증명 가능하게 달성할 수 있다.
- 이를 통해 에이전트는 복잡한 시간적 논리 작업 사양을 거의 최적의 행동으로 매핑할 수 있게 된다.
- 실험 결과는 제안된 방법이 다양한 장기 과제에서 기존 방법보다 우수한 성능을 보여준다는 것을 보여준다.
Statistieken
에이전트가 환경에서 모든 고수준 목표를 달성할 수 있는 충분한 기술 원시를 학습한다.
에이전트는 이러한 기술 원시를 논리적으로 그리고 시간적으로 유연하게 합성하여 정규 언어로 표현된 시간적 논리 사양을 증명 가능하게 달성할 수 있다.
에이전트는 복잡한 시간적 논리 작업 사양을 거의 최적의 행동으로 매핑할 수 있다.