핵심 개념
적대적 역강화 학습(AIRL)은 정책 모방과 전이 가능한 보상 회복이라는 두 가지 다른 목표를 가지고 있다. 이 논문에서는 이 두 가지 목표를 달성하기 위한 최적의 솔루션을 제시한다.
초록
이 논문은 적대적 역강화 학습(AIRL)을 정책 모방과 전이 가능한 보상 회복이라는 두 가지 관점에서 재검토한다.
정책 모방 관점에서는 AIRL의 내장 알고리즘을 소프트 액터-크리틱(SAC)으로 대체하여 샘플 효율성을 높였다. SAC-AIRL은 정책 모방 성능이 크게 향상되었다.
전이 가능한 보상 회복 관점에서는 SAC-AIRL이 보상을 완전히 분리하지 못하는 문제가 있음을 발견했다. 이에 따라 표준 강화 학습 기반 AIRL(PPO-AIRL)을 제안하였고, 이는 상태 기반 보상에 대해 분리된 보상을 회복할 수 있음을 보였다.
또한 환경 동역학의 관점에서 분리된 보상을 추출할 수 있는 조건을 대수적 이론 관점에서 분석하였다.
마지막으로 PPO-AIRL로 분리된 보상을 회복하고 새로운 환경에서 SAC로 정책을 최적화하는 하이브리드 프레임워크 PPO-AIRL + SAC를 제안하였다. 이 프레임워크는 소스 환경에서의 솔루션 최적화와 새로운 환경에서의 효과적인 학습 전략을 동시에 달성한다.
통계
보상 함수 r(s)는 상태 s에만 의존한다.
환경 전이 확률 P가 rank(P-I) = |S| - 1을 만족하면 AIRL은 상수 차이를 제외하고 실제 보상 함수 r(s)를 추출할 수 있다.