Core Concepts
多様なアクション消去確率を持つチャネルを通じて分散エージェントと中央学習者が相互作用する際の効率的な学習アルゴリズムを提案する。
Abstract
本論文では、中央の学習者が複数の分散エージェントに対してアクションを送信するが、通信チャネルの性能の違いによりアクションが消去される可能性がある状況を扱う。具体的には以下の内容が含まれる:
中央学習者は各ラウンドでK個のアクションの中から各エージェントに対するアクションを選択して送信する。
エージェントmのチャネルの消去確率はϵmであり、これらは互いに異なる可能性がある。
エージェントは最後に受信したアクションを実行するが、学習者はエージェントがどのアクションを実行したかを知ることができない。
学習者は報酬を観測できるが、その報酬がどのアクションに対応するかは不明確である。
提案するBatchSP2アルゴリズムは、アクションの繰り返し送信とスケジューリングを組み合わせることで、このような状況下でも亜線形の後悔を達成できることを示す。
数値実験の結果、提案手法が既存手法に比べて優れた性能を示すことを確認した。
Stats
各エージェントmの消去確率ϵmは既知の上界を持つ。
各エージェントmの繰り返し回数αmは、αm = ⌈4 log T/ log (1/ϵm)⌉−1 で与えられる。
Quotes
"Multi-Armed Bandit (MAB) systems are witnessing an upswing in applications within multi-agent distributed environments, leading to the advancement of collaborative MAB algorithms."
"A prevalent challenge in distributed learning is action erasure, often induced by communication delays and/or channel noise."
"We illustrate that, in contrast to existing bandit algorithms, which experience linear regret, our algorithms assure sub-linear regret guarantees."