Grunnleggende konsepter
本稿では、離散的な組み合わせ行動空間におけるオフライン強化学習のための新しい手法、Branch Value Estimation (BVE) を提案する。BVEは、行動空間を木構造として表現することで、サブアクション間の依存関係を効果的に捉えながら、各タイムステップで評価する行動の数を減らし、大規模な行動空間へのスケーリングを可能にする。
Sammendrag
組み合わせ行動空間におけるオフライン強化学習:論文要約
Landers, M., Killian, T. W., Barnes, H., Hartvigsen, T., & Doryab, A. (2024). Offline Reinforcement Learning With Combinatorial Action Spaces. arXiv preprint arXiv:2410.21151v1.
本研究は、複数のサブアクションの同時実行によって生じる離散的な組み合わせ行動空間を持つ環境において、オフライン強化学習を効果的に行うことを目的とする。