오프라인 강화 학습

오프라인 강화 학습을 위한 그리드 매핑 의사 카운트 제약 기법

본 논문은 오프라인 강화 학습에서 연속 상태-행동 공간의 불확실성을 효과적으로 정량화하고 제약하는 그리드 매핑 의사 카운트(GPC) 기법을 제안한다. GPC는 정적 데이터셋의 정보를 활용하여 상태-행동 공간을 이산화하고 이를 통해 불확실성을 효율적으로 추정할 수 있다. 이를 바탕으로 GPC-SAC 알고리즘을 개발하여 D4RL 벤치마크에서 우수한 성능과 낮은 계산 비용을 달성하였다.

다양한 무작위 가치 함수: 오프라인 강화 학습을 위한 보수적인 접근법

지속적인 오프라인 강화 학습 문제 해결을 위한 Decision Transformer 활용

오프라인 강화 학습을 위한 그리드 매핑 의사 카운트 제약 기법