Core Concepts
모델 기반 오프라인 강화 학습에서 보수적 벨만 연산자를 도입하여 성능과 강건성의 균형을 달성하는 새로운 알고리즘 MICRO를 제안한다.
Abstract
이 논문은 모델 기반 오프라인 강화 학습(MBORL) 문제를 다룬다. MBORL은 오프라인 데이터셋을 활용하여 환경 모델을 학습하고, 이를 바탕으로 정책을 최적화한다. 그러나 학습된 모델과 실제 환경 간의 격차로 인해 모델 데이터의 신뢰성이 낮아지는 문제가 있다.
이를 해결하기 위해 저자들은 보수적 벨만 연산자를 도입한 새로운 MBORL 알고리즘 MICRO를 제안한다. MICRO는 오프라인 데이터와 모델 데이터를 모두 활용하되, 모델 데이터에 대해서는 보수적 벨만 연산자를 적용하여 성능과 강건성의 균형을 달성한다.
구체적으로, MICRO는 표준 벨만 연산자와 강건 벨만 연산자를 결합한 보수적 벨만 연산자를 사용한다. 이를 통해 모델 데이터의 불확실성을 고려하면서도 계산 비용을 크게 줄일 수 있다. 이론적 분석과 실험 결과를 통해 MICRO가 기존 MBORL 알고리즘 대비 우수한 성능과 강건성을 보임을 확인하였다.
Stats
오프라인 데이터셋에 비해 모델 데이터가 신뢰성이 낮아 성능 저하가 발생한다.
모델 데이터의 불확실성을 고려하여 보수적으로 최적화하면 성능과 강건성의 균형을 달성할 수 있다.
Quotes
"모델 기반 오프라인 RL 알고리즘은 학습된 환경 모델을 활용하여 더 많은 OOD 데이터를 생성하고 해당 모델 내에서 보수적 정책 최적화를 수행하는 효과적인 방법이 되었다."
"현재 모델 기반 알고리즘은 정책의 강건성을 고려할 때 보수성을 통합하는 것을 거의 고려하지 않는다."