核心概念
오프라인 데이터셋에서 정책 가이드 확산 모델을 학습하여 목표 정책에 부합하는 합성 경험을 생성함으로써, 오프라인 강화학습 성능을 향상시킬 수 있다.
摘要
이 논문은 오프라인 강화학습에서 발생하는 분포 차이 문제를 해결하기 위한 방법으로 정책 가이드 확산 모델을 제안한다.
- 기존 모델 기반 방법은 단일 단계 전이 모델을 학습하고 이를 통해 합성 경험을 생성하지만, 오차 누적으로 인해 경험을 짧게 생성해야 한다는 한계가 있다.
- 이에 반해 정책 가이드 확산 모델은 전체 경로를 한 번에 생성할 수 있으며, 목표 정책에 대한 가이드를 통해 행동 확률을 높일 수 있다.
- 구체적으로 정책 가이드 확산 모델은 오프라인 데이터셋을 활용하여 행동 분포를 모델링하고, 목표 정책의 행동 확률 기울기를 이용하여 합성 경험을 목표 정책 방향으로 이동시킨다.
- 이를 통해 목표 정책 확률이 높은 합성 경험을 생성할 수 있으며, 동시에 전이 모델 오차도 낮출 수 있다.
- 다양한 오프라인 강화학습 환경과 알고리즘에서 정책 가이드 확산 모델을 활용한 경우 기존 방법 대비 유의미한 성능 향상을 보였다.
統計資料
오프라인 데이터셋에서 학습한 확산 모델을 통해 생성한 합성 경험을 활용하면 기존 데이터셋 대비 11.2% 향상된 성능을 보였다.
미로 탐색 환경에서는 더 큰 성능 향상을 관찰할 수 있었다.
引述
"오프라인 데이터셋에서 정책 가이드 확산 모델을 학습하여 목표 정책에 부합하는 합성 경험을 생성함으로써, 오프라인 강화학습 성능을 향상시킬 수 있다."
"정책 가이드 확산 모델은 전체 경로를 한 번에 생성할 수 있으며, 목표 정책에 대한 가이드를 통해 행동 확률을 높일 수 있다."