이 논문은 연속 제어 환경에서 심층 강화학습 에이전트의 성능 변동성 문제를 다룬다. 저자들은 수익 지형도(정책 매개변수와 수익 간의 매핑)를 분석하여 다음과 같은 통찰을 얻었다:
정책 업데이트 후 수익 분포(post-update return distribution)를 분석하면 동일한 평균 수익을 가진 정책들 간에도 분포 특성(표준편차, 왜도, 좌측 꼬리 확률)이 크게 다르다. 이는 에이전트의 행동 양상 차이로 이어진다.
정책 업데이트 시 수익이 갑자기 크게 떨어지는 현상은 정책이 불안정한 상태에 도달했기 때문이며, 이는 정책의 미세한 변화로 인해 에피소드가 조기 종료되거나 낮은 보상 상태에 빠지게 되는 것이 원인이다.
동일한 실행에서 얻은 정책들 간 선형 보간 시 낮은 수익 영역이 나타나지 않는데, 이는 각 실행이 서로 다른 행동 특성을 학습하는 것으로 해석된다.
정책 업데이트 시 수익 분포의 좌측 꼬리 확률을 줄이는 방법을 제안하였으며, 이를 통해 정책의 안정성을 높일 수 있다.
이 연구는 심층 강화학습 에이전트의 성능 변동성 문제를 새로운 관점에서 분석하고, 정책 최적화 과정에서 고려해야 할 분포적 측면을 제시한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문