핵심 개념
오프라인 데이터셋에서 다양한 행동 정책의 이점 값을 모델링하여 이점 인식 정책 제약을 명시적으로 구축함으로써 효과적인 에이전트 정책을 학습할 수 있다.
초록
이 논문은 오프라인 강화학습에서 발생하는 제약 충돌 문제를 해결하기 위한 새로운 접근법인 이점 인식 정책 최적화(A2PO)를 제안한다.
- 기존 방법들은 오프라인 데이터셋에서 수집된 다양한 행동 정책들 간의 차이를 고려하지 않고 각 샘플에 동일한 제약을 적용하였다. 이로 인해 제약 충돌 문제가 발생하였다.
- A2PO는 조건부 변분 오토인코더(CVAE)를 사용하여 행동 정책들을 이점 값 조건으로 분리하고, 이를 바탕으로 이점 인식 정책 제약을 명시적으로 구축한다.
- 이를 통해 에이전트 정책이 높은 이점 값을 가지는 상태-행동 쌍을 선택하도록 유도할 수 있다.
- D4RL 벤치마크 실험에서 A2PO가 기존 최신 오프라인 강화학습 방법들을 크게 능가하는 성능을 보였다.
통계
오프라인 데이터셋에서 수집된 상태-행동 쌍의 실제 반환 값은 -100에서 100 사이의 범위를 가진다.
제안된 A2PO 방법은 상태-행동 쌍의 이점 값을 -1에서 1 사이의 범위로 정규화하여 모델링한다.
인용구
"오프라인 강화학습은 사전 수집된 데이터셋을 활용하여 온라인 상호작용 없이 효과적인 에이전트 정책을 구축하는 것을 목표로 한다."
"기존 방법들은 오프라인 데이터셋에서 수집된 다양한 행동 정책들 간의 차이를 고려하지 않고 각 샘플에 동일한 제약을 적용하였다. 이로 인해 제약 충돌 문제가 발생하였다."
"A2PO는 조건부 변분 오토인코더(CVAE)를 사용하여 행동 정책들을 이점 값 조건으로 분리하고, 이를 바탕으로 이점 인식 정책 제약을 명시적으로 구축한다."