本論文では、多腕バンディット問題の新しいフレームワークである、多変量かつ確率的にトリガーされるアームを持つ組み合わせ的多腕バンディット（CMAB-MT）を提案し、その枠組みがエピソード強化学習問題を含む多くの重要な問題に適用できることを示す。


coremsg

エピソード強化学習とその先への応用を伴う-組み合わせ的多変量多腕バンディット


エピソード強化学習とその先への応用を伴う、組み合わせ的多変量多腕バンディット