核心概念
본 연구는 모델 없는 환경에서 엔트로피 정규화 역강화 학습 문제를 해결하는 단일 루프 알고리즘을 제안하고, 회수된 보상과 최적 정책에 대한 강력한 수렴 보장을 제공한다.
摘要
이 연구는 엔트로피 정규화 역강화 학습 문제를 해결하기 위한 모델 없는 단일 루프 알고리즘을 제안한다. 알고리즘은 정책 업데이트를 위한 확률적 소프트 정책 반복과 보상 업데이트를 위한 확률적 투영 경사 하강을 사용한다.
- 보상 수렴성:
- 제안된 알고리즘은 전문가가 ε-최적인 보상을 회수하는 데 O(1/ε^2)개의 MDP 샘플이 필요함을 보여준다.
- 이는 전문가 정책의 최적성을 보장한다.
- 정책 수렴성:
- 회수된 보상에 대한 최적 정책은 전문가 정책과 총변동 거리에서 ε-가까워짐을 보여준다.
- 이는 기존 연구에서 사용된 지표보다 강력한 수렴 보장을 제공한다.
- 알고리즘 특징:
- 단일 루프 구조로, 각 보상 업데이트 단계에서 강화 학습 문제를 해결할 필요가 없다.
- 모델 없는 환경에서 구현 가능하며, 유한한 기대 샘플 수로 수렴을 보장한다.
統計資料
전문가 정책 πE는 보상 클래스 R 내에서 εreal-최적이다.
상태 점유 측도 비율 ϑ = maxs νπ∗
rt(s) / νπt(s)는 상한이 있다.
引述
"주어진 전문가 시연 데이터셋에 대해, 역강화 학습(IRL)은 전문가가 최적인 보상을 회수하는 것을 목표로 한다."
"엔트로피 정규화는 최적 정책의 고유성을 보장하여, 널리 사용되는 엔트로피 정규화 IRL 프레임워크로 이어진다."