核心概念
後継特徴を利用することで、既存のタスクの解決策を新しいタスクに転用し、サンプル効率を高めることができる。本研究では、後継特徴ベースの2つの多タスク強化学習フレームワークを統合し、連続制御タスクに適用する新しい手法を提案する。
摘要
本研究の主な内容は以下の通りです:
後継特徴ベースの2つの多タスク強化学習フレームワーク、SF-GPI (Successor Feature-based Generalized Policy Improvement) と価値合成 (Value Composition) を統合し、連続制御タスクに適用可能な新しい手法を提案した。
提案手法では、後継特徴の合成的性質を利用して、新しいタスクのポリシーを既存のプリミティブから直接合成することができる。これにより、新しいポリシーを学習する必要がなく、サンプル効率が向上する。
提案手法には、最大後継特徴 (MSF) 合成、SF-GPI合成、直接行動合成 (DAC)、DAC-GPI合成の4つのバリエーションがある。それぞれ、合成の方法や特性が異なる。
新しいベンチマーク環境 Pointmass を開発し、提案手法の有効性を実験的に示した。提案手法は単一タスクの性能も保ちつつ、未知のタスクへの転移も可能であることを確認した。
提案手法では、後継特徴の表現を共有することで、プリミティブ間の知識転移を促進できる。また、行動合成時のノイズ低減も重要な要素である。
統計資料
提案手法は単一タスクの性能をソフトアクタークリティック (SAC) と同等に保ちつつ、未知のタスクへの転移も可能である。
提案手法のうち、DAC-GPI が最も高速な収束を示した。これは、行動合成時のノイズを効果的に除去できるためである。
提案手法は、特徴の追加によって得られるプリミティブの多様性を活用し、学習速度を向上させることができる。
引述
"本研究では、後継特徴ベースの2つの多タスク強化学習フレームワークを統合し、連続制御タスクに適用可能な新しい手法を提案した。"
"提案手法では、後継特徴の合成的性質を利用して、新しいタスクのポリシーを既存のプリミティブから直接合成することができる。"
"提案手法のうち、DAC-GPI が最も高速な収束を示した。これは、行動合成時のノイズを効果的に除去できるためである。"