이 논문은 적대적 역강화 학습(AIRL)을 정책 모방과 전이 가능한 보상 회복이라는 두 가지 관점에서 재검토한다.
정책 모방 관점에서는 AIRL의 내장 알고리즘을 소프트 액터-크리틱(SAC)으로 대체하여 샘플 효율성을 높였다. SAC-AIRL은 정책 모방 성능이 크게 향상되었다.
전이 가능한 보상 회복 관점에서는 SAC-AIRL이 보상을 완전히 분리하지 못하는 문제가 있음을 발견했다. 이에 따라 표준 강화 학습 기반 AIRL(PPO-AIRL)을 제안하였고, 이는 상태 기반 보상에 대해 분리된 보상을 회복할 수 있음을 보였다.
또한 환경 동역학의 관점에서 분리된 보상을 추출할 수 있는 조건을 대수적 이론 관점에서 분석하였다.
마지막으로 PPO-AIRL로 분리된 보상을 회복하고 새로운 환경에서 SAC로 정책을 최적화하는 하이브리드 프레임워크 PPO-AIRL + SAC를 제안하였다. 이 프레임워크는 소스 환경에서의 솔루션 최적화와 새로운 환경에서의 효과적인 학습 전략을 동시에 달성한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yangchun Zha... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14593.pdfYêu cầu sâu hơn