Core Concepts
高レベルタスク仕様を表すグラフィカル表現を活用し、エージェントの学習進捗に応じて有望なサブタスクを動的に選択することで、環境との相互作用を最小限に抑えながら効率的にタスクを達成する。
Abstract
本研究では、強化学習(RL)エージェントが複雑な行動を学習する際の課題を解決するため、高レベルタスク仕様を表現するSPECTRLフォーマルランゲージを活用した手法を提案する。
まず、与えられたSPECTRLフォーマルを等価な有向非巡回グラフ(DAG)に変換する。このDAGは、タスクの部分目標と、それらを達成するための軌跡を表現する。
次に、DAGの各エッジに対応するサブタスクを定義する。サブタスクは、ある状態から別の状態への遷移を実現する、到達-回避目的を表す。
提案手法LSTSでは、教師エージェントが学習進捗の良いサブタスクを動的に選択し、学習者エージェントにそのサブタスクを学習させる。これにより、無駄な環境相互作用を抑えつつ、高レベルタスク目標を効率的に達成できる。
実験の結果、LSTSは既存手法と比べて大幅に少ない環境相互作用で高レベルタスクを達成できることを示した。特に、部分観測ロボット環境や連続制御ロボット操作タスクでも、LSTSの優位性が確認された。
Stats
ロボット環境でのタスク達成率は0.95以上を達成した。
ロボット環境での学習に要した総環境相互作用数は、既存手法の約1/2であった。