Core Concepts
ロボット操作タスクの成功条件を捉えた密な報酬関数を、タスクの段階構造を活用して学習し、新しいタスクでも再利用可能にする。
Abstract
本研究では、ロボット操作タスクの成功条件を捉えた密な報酬関数を学習する手法「DrS」を提案している。DrSは、タスクの段階構造を活用することで、効率的に高品質な密な報酬を学習できる。
具体的には以下の通り:
タスクをいくつかの段階に分割し、各段階の成功/失敗トラジェクトリを識別するディスクリミネータを学習する。
これらのディスクリミネータを組み合わせて、段階ごとの密な報酬を生成する。
学習した報酬は新しいタスクでも再利用可能で、強化学習の性能と サンプル効率を大幅に向上させる。
実験では、1,000以上のタスク変種に渡って評価を行い、提案手法の有効性を示している。人手設計の報酬と比べても遜色ない性能を達成できる。また、人手設計に比べて報酬設計の手間を大幅に削減できる。
Stats
段階指標を使うことで、単一の疎な報酬信号から段階ごとの密な報酬を学習できる。
学習した密な報酬を新しいタスクで再利用することで、強化学習の性能とサンプル効率を大幅に向上できる。
人手設計の報酬と比べても遜色ない性能を達成できる。
人手設計に比べて報酬設計の手間を大幅に削減できる。
Quotes
"ロボット操作タスクの成功条件を捉えた密な報酬関数を、タスクの段階構造を活用して学習し、新しいタスクでも再利用可能にする。"
"段階指標を使うことで、単一の疎な報酬信号から段階ごとの密な報酬を学習できる。"
"学習した密な報酬を新しいタスクで再利用することで、強化学習の性能とサンプル効率を大幅に向上できる。"