이 논문은 모델 기반 오프라인 강화 학습 문제를 다룬다. 모델 기반 강화 학습은 오프라인 데이터로부터 환경 모델을 학습하고, 이를 활용하여 더 넓은 범위의 데이터를 생성할 수 있다. 그러나 학습된 모델과 실제 환경 간의 차이로 인해 보수적인 접근이 필요하다.
기존 방법들은 모델 불확실성 추정에 의존하여 보수적 정책 최적화를 수행했지만, 이는 불확실성 추정의 신뢰성 문제로 인해 성능이 저하될 수 있다. 또한 이전 방법들은 모델 데이터 간의 차이를 고려하지 않아 과도한 보수성을 보였다.
이 논문에서는 모델 데이터의 오차 크기에 따라 적응적으로 모델 데이터에 대한 페널티를 조정하는 온건한 보수적 모델 기반 오프라인 강화 학습 알고리즘 DOMAIN을 제안한다. DOMAIN은 모델 데이터의 샘플링 분포를 적응적으로 조정하여 모델 데이터 페널티를 조절한다.
이론적 분석을 통해 DOMAIN이 이전 알고리즘보다 덜 보수적이며, 안전한 정책 개선을 보장함을 보였다. 실험 결과 DOMAIN이 D4RL 벤치마크와 일반화 요구 과제에서 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xiao-Yin Liu... at arxiv.org 04-26-2024
https://arxiv.org/pdf/2309.08925.pdfDeeper Inquiries