오프라인 강화 학습에서 분포 변화와 신뢰할 수 없는 가치 추정 문제를 해결하기 위해, 다양한 무작위 가치 함수를 사용하여 Q-값의 사후 분포를 추정하고 하한 신뢰 구간을 계산함. 이를 통해 OOD 행동에 대한 적절한 가치 감소를 적용하여 보수적인 접근법을 제안함.