이 논문은 적대적 역강화 학습(AIRL)의 두 가지 측면인 정책 모방과 전이 가능한 보상 회복을 재검토한다.
정책 모방 측면에서는 AIRL의 내장된 알고리즘을 샘플 효율성이 높은 소프트 액터-크리틱(SAC) 알고리즘으로 대체하여 성능 향상을 보여준다.
보상 회복 측면에서는 SAC 알고리즘이 보상 함수를 완전히 분리하는 데 한계가 있음을 보이고, 대신 표준 강화 학습 알고리즘인 PPO를 사용하여 분리된 보상을 회복하는 하이브리드 프레임워크 PPO-AIRL + SAC를 제안한다.
또한 환경 동역학의 관점에서 분리된 보상을 추출할 수 있는 환경의 조건을 대수학적 이론으로 분석한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania