오프라인 강화 학습에서 분포 변화와 신뢰할 수 없는 가치 추정 문제를 해결하기 위해, 다양한 무작위 가치 함수를 사용하여 Q-값의 사후 분포를 추정하고 하한 신뢰 구간을 계산함. 이를 통해 OOD 행동에 대한 적절한 가치 감소를 적용하여 보수적인 접근법을 제안함.
Decision Transformer를 활용하여 다양한 과제를 순차적으로 학습하고 이전 과제에 대한 지식을 효과적으로 유지하는 방법을 제안한다.
본 논문은 오프라인 강화 학습에서 연속 상태-행동 공간의 불확실성을 효과적으로 정량화하고 제약하는 그리드 매핑 의사 카운트(GPC) 기법을 제안한다. GPC는 정적 데이터셋의 정보를 활용하여 상태-행동 공간을 이산화하고 이를 통해 불확실성을 효율적으로 추정할 수 있다. 이를 바탕으로 GPC-SAC 알고리즘을 개발하여 D4RL 벤치마크에서 우수한 성능과 낮은 계산 비용을 달성하였다.