本論文では、多腕バンディット問題の新しいフレームワークである、多変量かつ確率的にトリガーされるアームを持つ組み合わせ的多腕バンディット(CMAB-MT)を提案し、その枠組みがエピソード強化学習問題を含む多くの重要な問題に適用できることを示す。