이 논문은 연속 공간에서의 강화 학습 정책 최적화 문제를 다룬다. 일반적으로 정책 최적화에서는 가우시안 분포와 같은 고엔트로피 확률 정책을 사용하여 지역 탐색과 정책 경사도 추정을 수행한다. 그러나 복잡하고 불안정한 동역학을 가진 많은 로봇 제어 문제에서는 이러한 방식으로 샘플링된 대부분의 행동이 낮은 가치를 가져 학습 진행이 느리거나 실패할 수 있다.
이 논문에서는 극값 탐색 제어(Extremum-Seeking Control, ESC) 기법을 활용하여 각 행동 샘플의 품질을 향상시키는 극값 탐색 기반 행동 선택(Extremum-Seeking Action Selection, ESA) 방법을 제안한다. 각 행동 샘플에 대해 사인파 섭동을 적용하고 추정된 Q값을 응답 신호로 사용하여 ESC 기반의 피드백 제어를 통해 해당 행동을 국소 최적값 근처로 개선한다. 이를 통해 저품질 궤적 샘플링을 줄이고 학습 효율을 높일 수 있다.
제안된 ESA 방법은 PPO, SAC 등의 표준 정책 최적화 알고리즘에 쉽게 통합될 수 있으며, 추가적인 모델이나 오라클 없이도 적용 가능하다. 다양한 연속 제어 환경에서의 실험을 통해 ESA가 학습 효율과 성능을 향상시킬 수 있음을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문