Core Concepts
異質環境における並列学習は、同質環境における並列学習よりも、通信ラウンド数の観点で本質的により困難である。
Abstract
本論文では、異質環境における最良アーム識別問題を研究している。複数のエージェントが異なる環境と相互作用し、集約された環境における目的関数を並列に学習したい場合を考える。ほぼ最適な上限と下限を証明することで、異質環境における協調学習は、同質環境における協調学習よりも、通信ラウンド数の観点でより困難であることを示している。
具体的には、2つのエージェントを持つ場合の下限を示し、その後一般の場合に拡張している。下限証明の際には、エージェントの局所的な適応性が異質環境における協調学習のラウンド複雑性を低減することができないことを示している。これは、同質環境における協調学習とは対照的である。また、非対称なアーム平均を用いた新しい入力分布を構築することで、同質環境の場合よりも高い下限を確立している。
最後に、提案アルゴリズムにより、時間予算と通信ラウンド数のトレードオフの上限を示している。
Stats
最良アームの平均は μ* である。
アーム iの平均は μi である。
最良アームと i番目のアームの平均ギャップは Δi = μ* - μi である。
問題の複雑さは H = Σi≠i* 1/Δi^2 で定義される。
Quotes
"異質環境における協調学習は、同質環境における協調学習よりも、通信ラウンド数の観点でより本質的に困難である。"
"エージェントの局所的な適応性は、異質環境における協調学習のラウンド複雑性を低減することができない。これは、同質環境における協調学習とは対照的である。"