Kernekoncepter
本文提出了一種名為「穩健決策導向模型強化學習」(RDF-MBRL)的新方法,旨在解決模型強化學習在面對不同獎勵函數時表現不佳的問題。RDF-MBRL 通過利用決策導向模型的非唯一性,學習一個在不同獎勵偏好下都能表現良好的簡單模型,從而在學習階段和部署階段都能保持高回報。
Sharma, A., Parbhoo, S., Gottesman, O., & Doshi-Velez, F. (2024). Decision-Focused Model-based Reinforcement Learning for Reward Transfer. Proceedings of Machine Learning Research, 252, 1–39.
本研究旨在解決模型強化學習(MBRL)在面對不同獎勵函數時表現不佳的問題,特別是在醫療保健等關鍵領域需要使用簡單且可解釋模型的情況下。