Belangrijkste concepten
QPHIL은 상태 공간을 이산적인 랜드마크로 양자화하고 트랜스포머 기반 플래너를 사용하여 장거리 내비게이션 작업을 위한 효율적인 랜드마크 시퀀스를 생성하는 새로운 계층적 오프라인 강화 학습 방법입니다.
Samenvatting
QPHIL: 계층적 암시적 Q-러닝을 위한 양자화된 플래너를 이용한 내비게이션
본 논문에서는 복잡하고 장거리 내비게이션 작업에서 오프라인 강화 학습(RL)의 성능을 향상시키기 위해 고안된 새로운 계층적 오프라인 목표 조건 RL 알고리즘인 QPHIL(Quantizing Planner for Hierarchical Implicit Learning)을 제안합니다.
QPHIL은 상태 공간을 제한된 수의 랜드마크로 나누는 상태 양자화기(ϕ), 주어진 목표에 도달하기 위해 순차적으로 도달해야 하는 랜드마크 시퀀스를 생성하는 상위 수준 정책 역할을 하는 계획 생성기(πplan), 랜드마크로 정의된 상태 영역을 목표로 하는 하위 수준 정책 모듈(πlandmark), 특정 상태 목표를 목표로 하는 하위 수준 정책 모듈(πgoal)의 네 가지 구성 요소를 통해 작동합니다.
상태 양자화기는 VQ-VAE(Vector Quantized Variational Autoencoder)를 사용하여 구현되며, 이는 환경의 역학을 학습된 표현에 도입하기 위해 재구성 손실, 커밋 손실 및 대조 손실을 결합합니다. 계획 생성기는 토큰화된 상태 시퀀스에서 훈련된 트랜스포머 아키텍처를 사용하여 구현되며, 하위 수준 정책은 수정된 IQL(Implicit Q-Learning) 알고리즘을 사용하여 훈련됩니다.