Core Concepts
多様な表現を学習することで、複数のタスクにわたる汎用的な政策を獲得する。
Abstract
本論文は、多タスク強化学習(MTRL)における表現学習の新しいアプローチを提案している。MTRLでは、複数のタスクにわたる共通の特徴を捉えることが重要だが、これまでの手法では表現の多様性が保証されていなかった。
本手法では、専門家の混合モデルを用いて表現を生成し、グラム・シュミット過程を適用することで、これらの表現が直交するように学習する。これにより、タスク間の共通点と固有の特徴を効果的に捉えることができる。
具体的には、状態をスティーフェル多様体上の直交表現にマッピングする新しいMDPフォーミュレーションを提案し、これに基づいて「Mixture Of ORthogonal Experts (MOORE)」と呼ばれる手法を開発した。
MiniGridとMetaWorldの2つの多タスク強化学習ベンチマークで評価した結果、MOOREは関連手法を上回る性能を示し、MetaWorldではState-of-the-Artの結果を達成した。また、表現の多様性や解釈可能性などの側面でも優れていることが確認された。
Stats
多様な表現を学習することで、複数のタスクにわたる汎用的な政策を獲得できる。
MOOREは関連手法を上回る性能を示し、MetaWorldではState-of-the-Artの結果を達成した。
表現の多様性や解釈可能性が優れている。
Quotes
"多様な表現を学習することで、複数のタスクにわたる汎用的な政策を獲得できる。"
"MOOREは関連手法を上回る性能を示し、MetaWorldではState-of-the-Artの結果を達成した。"
"表現の多様性や解釈可能性が優れている。"