Conceptos Básicos
데이터 효율성과 안전성을 모두 중요시하는 오프라인 강화 학습에서, 충분한 데이터가 확보된 '결정 지점'에 정책 개선을 집중하고 그 외의 지점에서는 기존 정책을 유지하는 방식이 효과적인 방법이다.
Resumen
결정 지점 기반 안전 정책 개선 연구 논문 요약
Sharma, A., Benac, L., Parbhoo, S., & Doshi-Velez, F. (2024). Decision-Point Guided Safe Policy Improvement. arXiv preprint arXiv:2410.09361.
본 연구는 제한된 데이터 환경에서 안전하고 효과적인 정책 개선을 목표로 하는 오프라인 강화 학습 알고리즘인 결정 지점 강화 학습(DPRL)을 제안합니다. 특히, 기존 정책 대비 확실한 성능 향상이 보장되는 '결정 지점'을 식별하고 해당 지점에 집중하여 정책을 개선하는 방법을 제시합니다.