HPO(Hierarchical Preference Optimization)는 복잡한 로봇 제어 작업에서 발생하는 비정상성 및 실행 불가능한 하위 목표 생성 문제를 해결하는 새로운 계층적 강화 학습(HRL) 방법입니다.
FGRL(Feudal Graph Reinforcement Learning)이라는 새로운 계층적 그래프 기반 강화 학습 프레임워크를 통해 복잡한 제어 문제를 해결하고, 계층적 의사 결정 구조를 구현하여 작업 분해를 가능하게 합니다.
본 논문에서는 논리적 명세가 주어진 구성 작업을 효율적이고 최적으로 일반화하기 위해 새로운 계층적 강화 학습 프레임워크를 제안합니다.
본 논문에서는 계층적 강화 학습에서 범용 가치 함수 근사기를 사용하여 보지 못한 목표에 대한 제로샷 일반화를 달성하는 방법을 제시합니다.
본 논문에서는 오프라인 설정에서 LTL(Linear Temporal Logic) 지 instructions 에 따라 로봇이 복잡한 작업을 수행하도록 학습하기 위한 새로운 계층적 강화 학습 프레임워크인 DOPPLER를 제안합니다. DOPPLER는 계층적 RL과 확산 기반 옵션을 결합하여 데이터 효율성과 정책 표현력을 향상시킵니다.