المفاهيم الأساسية
YOLO-MARLは、大規模言語モデル(LLM)の高度なタスク計画能力を活用し、協力型ゲームにおけるマルチエージェント強化学習(MARL)の学習プロセスを向上させる新しいフレームワークである。
الملخص
YOLO-MARL: マルチエージェント強化学習のための効率的なLLM活用
本稿では、協力型ゲームにおけるマルチエージェント強化学習(MARL)の学習プロセスを向上させる新しいフレームワーク、YOLO-MARLについて解説する。
深層MARLの進歩により、協力型ゲームにおける意思決定のための有望なアプローチとして位置付けられてきた。しかし、MARLエージェントが一部のゲーム環境において協力的な戦略を学習することは依然として課題である。近年、大規模言語モデル(LLM)は新たな推論能力を示しており、エージェント間の協調を強化するための有望な候補となっている。しかし、LLMのモデルサイズが大きいため、エージェントが実行可能な行動のために頻繁にLLMを推論することはコストがかかる可能性がある。
YOLO-MARLは、LLMの高レベルなタスク計画能力を活用し、協力型ゲームにおけるマルチエージェントのポリシー学習プロセスを向上させることを目的としたフレームワークである。このフレームワークの最大の特徴は、各ゲーム環境に対してLLMとのインタラクションが1回のみで済むことである。戦略生成、状態解釈、計画関数生成の各モジュールを経た後、MARLの学習プロセス中にLLMとのさらなるインタラクションは必要ないため、LLMの推論に伴う通信と計算のオーバーヘッドが大幅に削減される。
YOLO-MARLの構成要素
戦略生成モジュール: 環境とタスクの基本的な情報をLLMに渡し、その特定の環境に対する戦略を生成する。
状態解釈モジュール: グローバル状態を処理し、LLMがより理解しやすいように構造化および整理された形式に変換する。
計画関数生成モジュール: 環境とタスクの説明、LLMが生成した戦略、状態解釈関数を連結する。これらのプロンプトはLLMに供給され、その環境の計画関数を生成する。
MARL学習プロセス: 状態解釈関数と生成された計画関数がMARL学習プロセスに統合される。計画関数生成後、LLMとのさらなるインタラクションは必要ない。