핵심 개념
상태 정보만을 활용한 데모 데이터를 통해 각 상태-행동 쌍의 중요도를 간접적으로 추정하여, 이를 기반으로 한 부드러운 가이드 보상 함수를 설계함으로써 스파스 보상 환경에서의 정책 최적화를 달성한다.
초록
이 논문은 스파스 보상 환경에서의 강화학습 문제를 다룬다. 기존의 접근법들은 데모 데이터의 품질에 크게 의존하거나 계산 비용이 높은 단점이 있었다. 이를 해결하기 위해 저자들은 Policy Optimization with Smooth Guidance (POSG)라는 간단하고 효율적인 알고리즘을 제안한다.
POSG는 상태 정보만을 포함한 데모 데이터를 활용하여 각 상태-행동 쌍의 중요도를 간접적으로 추정한다. 구체적으로 다음과 같은 두 가지 기술을 도입한다:
- 트래젝토리 중요도 평가 메커니즘: 데모 데이터와의 MMD 거리와 트래젝토리 수익을 기반으로 트래젝토리 중요도를 평가한다.
- 부드러운 가이드 보상 계산 기술: 트래젝토리 중요도를 기반으로 각 상태-행동 쌍에 대한 가이드 보상을 계산한다.
이를 통해 데모 데이터의 분포 정보와 관련 트래젝토리의 수익을 융합하여 정책 최적화를 수행한다. 저자들은 POSG의 성능 개선 하한에 대한 새로운 이론적 분석을 제시하고, 격자 세계 미로, Hopper-v4, HalfCheetah-v4, Ant 미로 등 다양한 환경에서 POSG의 우수한 성능을 실험적으로 입증한다.
통계
격자 세계 미로 환경에서 POSG 에이전트는 초기 위치에서 멀리 이동하며 더 넓은 탐색 영역을 보인다.
SparseHalfCheetah 과제에서 POSG는 다른 기법들보다 빠르게 수렴하고 더 높은 최종 수익을 달성한다.
SparseHopper 과제에서 POSG의 평균 지면 진실 보상은 PPO의 기본 보상 설정과 유사한 수준까지 증가한다.
인용구
"POSG 에이전트는 더 초점이 맞춰진 탐색 방향을 보이며, POSG의 탐색 효율이 다른 기준 방법들보다 높다."
"POSG는 스파스 보상 데모 데이터의 분포 정보와 관련 트래젝토리의 수익을 융합하여 단순하고 효율적인 신용 할당을 달성한다."