Core Concepts
後継特徴を使用して、タスクを効率的に解決するためのポリシー基盤を学習し、高い柔軟性と最適性を実現します。
Abstract
伝統的な強化学習方法はマルコフ報酬関数に依存しており、非マルコフ報酬関数での課題指定に焦点を当てている。
後継特徴を使用した新しいアプローチは、グローバル最適性を保証しながら、複雑なタスクの解決能力を向上させる。
プランニングとポリシー基盤の組み合わせにより、新しいタスクでも最適なソリューションが生成される。
Abstract
伝統的なRL方法は多くの連続意思決定問題を成功裏に解決できるが、非マルコフ報酬仕様で一般化可能なポリシーの学習は困難。
後継特徴を使用して各(サブ)ポリシーがよく定義されたサブ問題を解決するためのポリシー基盤を学びます。
他の方法と比較して、我々の手法は漸近的にグローバル最適性に到達し、確率的環境でも優れたパフォーマンスが得られます。
Introduction
複雑な行動や長期間の振る舞いから成るタスクへ対処する自律エージェント向けに新しいアプローチが提案されています。
我々の手法は任意のFSAタスク仕様で最適ソリューションを生成することができます。
Reinforcement Learning
MDPモデルや割引因子γなど、強化学習問題共通の要素や定義が示されています。
エージェントは方策πに従って行動し、目標は期待割引収益を最大化することです。
Successor Features
後継特徴(SFs)は報酬関数が特徴ベクトルに対して直線的表現可能であると仮定します。
SFベクトルは各(サブ)ポリシーの評価値関数推定に効果的です。
Convex Coverage Set of Policies
OLSアルゴリズム拡張版ではCCS(凸カバレッジセット)内で非支配型ポリシー集合ΠCCS を効率的かつ収束性良く取得します。
Experiments
弊社手法はLOFやFlatQよりも高速かつ効果的なグローバル最適ソリューション探索能力があります。
Stats
後継特徴やSFsなど重要数字情報は含まれていません。
Quotes
"我々の手法は漸近的にグローバル最適性に到達し、確率的環境でも優れたパフォーマンスが得られます。"
"後継特徴(SFs)は各(サブ)ポリシーの評価値関数推定に効果的です。"