이 논문은 스파스 보상 환경에서의 강화학습 문제를 다룬다. 기존의 접근법들은 데모 데이터의 품질에 크게 의존하거나 계산 비용이 높은 단점이 있었다. 이를 해결하기 위해 저자들은 Policy Optimization with Smooth Guidance (POSG)라는 간단하고 효율적인 알고리즘을 제안한다.
POSG는 상태 정보만을 포함한 데모 데이터를 활용하여 각 상태-행동 쌍의 중요도를 간접적으로 추정한다. 구체적으로 다음과 같은 두 가지 기술을 도입한다:
이를 통해 데모 데이터의 분포 정보와 관련 트래젝토리의 수익을 융합하여 정책 최적화를 수행한다. 저자들은 POSG의 성능 개선 하한에 대한 새로운 이론적 분석을 제시하고, 격자 세계 미로, Hopper-v4, HalfCheetah-v4, Ant 미로 등 다양한 환경에서 POSG의 우수한 성능을 실험적으로 입증한다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Guojian Wang... om arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.00162.pdfDiepere vragen