核心概念
限られた時間予算内で最良の選択肢を協調的に見つけるための、新しいマルチエージェント強化学習アルゴリズムとその有効性。
Agrawal, S., & Blanco, S. A. (2024). Multi-Agent Best Arm Identification in Stochastic Linear Bandits. arXiv preprint arXiv:2411.13690v1.
本論文では、確率的線形バンディット問題において、複数のエージェントが協調して最良のアームを識別する問題に取り組んでいます。具体的には、固定された時間予算内で、最良のアームを最小のエラー確率で見つけることを目的としています。