Conceitos essenciais
本稿では、推定モデルから生成された信頼性の低いデータがモデルフリー学習の効率と有効性を阻害する可能性があるという、既存のDyna型強化学習アルゴリズムの重要な制限に対処する、OOD(Out-of-Distribution)データフィルターを導入することで、Dyna型モデルベース強化学習アルゴリズムの向上を提案する。
Resumo
Dyna型モデルベース強化学習におけるOODデータフィルターの活用
Li, Y., Dong, Z., Luo, E., Wu, Y., Wu, S., & Han, S. (2024). When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter. arXiv preprint arXiv:2410.12160.
本研究は、推定モデルから生成されたデータの信頼性を評価し、信頼性の低いデータをフィルタリングすることで、Dyna型モデルベース強化学習アルゴリズムの性能を向上させることを目的とする。