核心概念
オフラインtoオンラインマルチエージェント強化学習(O2O MARL)における、オフライン学習で得た知識の活用と効率的なオンライン探索のバランスを両立させる手法を提案する。
要約
オフライン事前学習と逐次探索を用いた、オフラインからオンラインへのマルチエージェント強化学習
本論文は、オフラインtoオンラインマルチエージェント強化学習(O2O MARL)における課題を解決し、サンプル効率とパフォーマンスを向上させる新しいフレームワークを提案することを目的とする。
マルチエージェント強化学習(MARL)は、複雑な協調タスクを解決する可能性を秘めているが、サンプル効率の悪さと計算量の多さが課題として挙げられる。オフラインtoオンライン強化学習(O2O RL)は、オフラインデータを利用することでこれらの課題を克服する有望なパラダイムとして注目されている。しかし、既存のO2O RL研究の多くは単一エージェント設定に焦点を当てており、マルチエージェントへの拡張、すなわちO2O MARLはあまり検討されていない。