SUMO는 모델 기반 오프라인 강화 학습에서 모델의 불확실성을 보다 정확하게 추정하여 학습 성능을 향상시키는 새로운 검색 기반 방법입니다.
제한된 샘플로 오프라인 강화 학습을 수행할 때, 소스 데이터셋(예: 시뮬레이터) 활용 시 데이터셋 간 불일치 정도와 샘플 수 사이의 최적의 균형을 이루는 것이 중요하며, 본 논문에서는 이러한 균형을 이론적/실험적으로 탐구하고 성능 보장 및 수렴 분석을 제공합니다.
DTQL은 확산 모델 기반의 효율적인 오프라인 강화 학습 알고리즘으로, 행동 복제를 위한 확산 정책과 실제 정책 학습을 위한 1단계 정책을 함께 사용하여 성능과 효율성을 향상시킵니다.