核心概念
メタ強化学習では、事前に与えられた学習タスクから新しいタスクを効率的に解決する方法を学習する。本研究では、学習タスクの分布を密度推定の手法を用いて直接推定し、その推定分布に基づいて最適な方策を学習する手法を提案する。
摘要
本研究では、メタ強化学習の理論的な理解を深めることを目的としている。具体的には、有限の学習タスクから、高確率で近似最適な方策を学習するために必要な学習タスクの数を明らかにすることを目指している。
提案手法の概要は以下の通り:
- 学習タスクの分布をカーネル密度推定(KDE)を用いて推定する。
- 推定された分布に基づいて最適な方策を学習する。
理論的な分析では以下の点を示した:
- KDEを用いた密度推定に基づく手法では、タスク分布の次元に指数関数的に依存する標本複雑度の上界を得ることができる。
- タスク分布が低次元の部分空間に存在する場合、主成分分析(PCA)を用いることで、次元の低い部分空間に基づいた上界を得ることができる。
- 提案手法は、既存の手法と比べて、タスクの構造に応じて異なる特性を示す。
実験では、提案手法をVariBADアルゴリズムに組み込み、ベンチマーク課題において性能向上を示した。
统计
学習タスクの数が少ない場合、提案手法はVariBADよりも高い平均リターンを達成した。
学習タスクの数が十分に多い場合、両手法の性能は同等であった。
学習タスクの数が極端に少ない場合、両手法とも十分な一般化性能を示せなかった。