Core Concepts
従来の強化学習モジュールは同質的な性質を持つが、本研究では、ルール、軌跡データ、スキルなど、異なる表現形式と処理メカニズムを持つ知識源を統合的に活用する拡張モジュール型強化学習(AMRL)を提案する。
Abstract
本論文では、強化学習における異種知識の活用について議論している。従来の強化学習モジュールは同質的な性質を持つが、本研究では、ルール、軌跡データ、スキルなど、異なる表現形式と処理メカニズムを持つ知識源を統合的に活用する拡張モジュール型強化学習(AMRL)を提案している。
AMRL では、選択機構(セレクタ)を用いて、異種のモジュールを組み合わせ、様々な知識表現と処理メカニズムを柔軟に統合する。選択機構には、ハード選択(1つのモジュールを選択)とソフト選択(複数のモジュールを重み付き平均)の2つのバリアントを検討している。
評価では、Minigridベンチマーク環境において、AMRLがベースラインと比較して、サンプル効率の向上と高い最終性能を達成することを示している。特に、ソフト選択メカニズムが優れた結果を示している一方で、ハード選択は性能が不安定になる傾向がある。
Stats
従来の強化学習モジュールは同質的な性質を持つが、本研究では異種の知識源を統合的に活用する。
AMRL では、選択機構(セレクタ)を用いて、異種のモジュールを組み合わせ、様々な知識表現と処理メカニズムを柔軟に統合する。
ソフト選択メカニズムが優れた結果を示しているが、ハード選択は性能が不安定になる傾向がある。
Quotes
"従来の強化学習モジュールは同質的な性質を持つが、本研究では、ルール、軌跡データ、スキルなど、異なる表現形式と処理メカニズムを持つ知識源を統合的に活用する拡張モジュール型強化学習(AMRL)を提案する。"
"AMRL では、選択機構(セレクタ)を用いて、異種のモジュールを組み合わせ、様々な知識表現と処理メカニズムを柔軟に統合する。"