본 논문에서는 모델 기반 오프라인 강화 학습(Model-Based Offline Reinforcement Learning)에서 가치 과대평가 문제를 해결하기 위해 제한된 잠재 행동 정책(Constrained Latent Action Policies, C-LAP)이라는 새로운 방법을 제안합니다.
오프라인 강화 학습은 환경과의 상호작용 없이 고정된 데이터셋을 사용하여 정책을 학습하는 것을 목표로 합니다. 하지만, 온라인 설정과 달리 고정된 데이터셋만 사용하면 학습된 정책이 데이터 분포 밖의 샘플을 생성하는 등의 문제가 발생할 수 있습니다. 모델 기반 오프라인 강화 학습 방법은 환경의 기본 динамику 모델을 학습하고 이를 사용하여 정책 검색을 안내함으로써 이러한 문제를 해결하려고 시도합니다. 그러나 제한된 데이터셋으로 인해 모델의 오류와 데이터 분포 밖의 상태에 대한 가치 과대평가 문제가 발생하여 성능이 저하될 수 있습니다.
본 논문에서 제안하는 C-LAP 방법은 관측값과 행동의 결합 분포를 학습하는 생성 모델을 사용합니다. 잠재 행동 공간을 사용하여 정책 학습을 제한된 최적화 문제로 변환하고, 생성 모델의 기능을 사용하여 생성된 행동에 대한 암시적 제약을 부과합니다. 이를 통해 벨만 업데이트에 추가적인 불확실성 페널티를 사용할 필요성을 없애고 정책을 학습하는 데 필요한 그라데이언트 단계 수를 크게 줄입니다.
D4RL 및 V-D4RL 벤치마크에서 C-LAP을 실험적으로 평가한 결과, C-LAP은 최첨단 방법과 경쟁력이 있으며 특히 시각적 관측값이 있는 데이터셋에서 뛰어난 성능을 보였습니다.
C-LAP은 모델 기반 오프라인 강화 학습에서 가치 과대평가 문제를 해결하는 효과적인 방법입니다. 잠재 행동 공간과 제한된 정책 최적화를 사용하여 데이터 분포 밖의 상태에 대한 가치 과대평가를 방지하고 정책 학습을 가속화합니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Marvin Alles... kl. arxiv.org 11-08-2024
https://arxiv.org/pdf/2411.04562.pdfDybere Forespørgsler