核心概念
本稿では、不確実なダイナミクスと高レベルの制御目標を持つシステムに対し、時間論理に基づいたタスク仕様を活用することで、探索を効率化し、サンプル効率の高い強化学習アルゴリズムを実現する手法を提案する。
要約
時間論理目標を用いたサンプル効率の高い強化学習:タスク仕様を活用した探索の指針
本論文は、不確実なダイナミクスと線形時間論理(LTL)式で指定された高レベルの制御目標を持つシステムに対し、最適な制御ポリシーを学習する問題を取り扱っています。ワークスペース構造と制御決定の結果に不確実性が存在し、未知のマルコフ決定過程(MDP)が生じます。従来のLTLタスク向けの強化学習(RL)アルゴリズムは、一般的に、(例えば、εグリーディーポリシーを使用して)積MDP状態空間を一様に探索することに依存しており、サンプル効率が低下します。この問題は、報酬がまばらになり、MDPのサイズやタスクの複雑さが増すにつれて、より顕著になります。本論文では、従来のアプローチよりも大幅に高速に制御ポリシーを学習できる、高速化されたRLアルゴリズムを提案します。そのサンプル効率は、タスクの達成に貢献する可能性のある方向に探索を偏らせる、新しいタスク駆動型探索戦略に依存しています。提案手法のサンプル効率を実証する理論的分析と広範な比較実験を提供します。我々の手法の利点は、タスクの複雑さやMDPのサイズが大きくなるにつれて、より明らかになります。
従来のLTLタスク向けのRLアルゴリズムは、MDPとLTL式の積である積MDP(PMDP)の状態空間を一様に探索するため、サンプル効率が低いという問題がありました。特に、報酬がまばらな場合や、MDPのサイズやタスクの複雑さが増すにつれて、この問題は顕著になります。