Keskeiset käsitteet
희소 보상 환경에서 효율적인 탐험과 신뢰할 수 있는 보상 할당을 달성하기 위해 오프라인 데모 궤적을 지침으로 활용하는 새로운 접근법을 제안합니다.
Tiivistelmä
이 연구는 희소 보상 환경에서 효율적인 탐험과 신뢰할 수 있는 보상 할당을 달성하기 위한 새로운 접근법인 TOPO(Trajectory Oriented Policy Optimization)를 제안합니다.
주요 내용은 다음과 같습니다:
오프라인 데모 궤적을 모방하는 것이 아니라 지침으로 활용하여, 에이전트의 상태-행동 방문 분포가 오프라인 전문가 데모와 일치하도록 장려합니다.
궤적 간 거리를 측정하기 위해 최대 평균 차이(MMD) 기반의 새로운 거리 측도를 도입하고, 이를 활용하여 거리 제약 최적화 문제를 정의합니다.
정책 경사 알고리즘을 통해 이 최적화 문제를 해결하고, 오프라인 데모에서 얻은 통찰을 바탕으로 내재적 보상을 설계합니다.
이산 및 연속 제어 과제에서 실험을 수행하여, TOPO가 다른 기준 방법들에 비해 우수한 성능을 보임을 입증합니다.
Tilastot
희소 보상 환경에서 TOPO가 다른 기준 방법들에 비해 더 빠른 학습 속도와 높은 최종 수익을 달성했습니다.
TOPO는 현재 정책과 전문가 데모 궤적 간 MMD 거리를 효과적으로 줄일 수 있었습니다.
Lainaukset
"희소 보상 신호에 직면할 때 이러한 RL 방법론은 샘플 복잡성과 비최적 성능에 어려움을 겪을 수 있습니다."
"우리의 핵심 통찰은 오프라인 데모 궤적을 모방하는 것이 아니라 지침으로 취급함으로써, 에이전트가 오프라인 데모의 상태 한계 방문 분포와 부합하는 정책을 식별하도록 장려한다는 것입니다."