本研究は、非定常マルチエージェント環境下での均衡の学習に取り組んでいる。
まず、非定常単一エージェントの強化学習アルゴリズムをマルチエージェントに拡張することの困難さを指摘している。具体的には、バンディット型のフィードバックでは勾配推定が困難であり、また均衡の非一意性により検査ベースのアルゴリズムも適用が難しいことを示している。
そこで本研究では、柔軟な黒箱アプローチを提案する。この手法は、定常環境下での均衡学習アルゴリズムを活用しつつ、非定常性に適応できるように拡張するものである。
提案手法には2つのバージョンがある。まず、非定常性の予算が既知の場合は、学習と固定コミットの繰り返しによって、e
O(∆1/4T 3/4)の動的レグレットを達成できる。ここで∆は非定常性の度合いを表す。
次に、非定常性の予算が未知の場合は、マルチスケールのテストスケジューリングを用いて、e
O(∆1/5T 4/5)の動的レグレットを達成できる。
これらの手法は、基底アルゴリズムの性質を継承しつつ、非定常性にも適応できるという特徴を持つ。具体的には、エージェント数の呪いを回避でき、分散化も可能である。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы