Core Concepts
報酬関数の学習において、真の報酬関数と類似性を最大化するための新しいアクティブなクエリング手法が優れた結果を示す。
Abstract
選好ベースの報酬学習は、ロボットや自律システムにタスク実行方法を教える人気のある技術である。これにより、情報収集効率が向上し、データ効率が改善される。既存の目的は情報ゲインや体積削減などであり、正確なパラメータ同定に焦点を当てている。しかし、本作業では、振る舞い同等性クラスまで報酬関数を最適化することが可能であることを示している。この枠組みは類似性定義を捉えられるものであり、合成環境や自然言語処理問題で優れたパフォーマンスを示している。
Stats
85%までのパフォーマンス向上
線形および非線形報酬でも優れた結果
Quotes
"Our key insight in this work is that the active learning algorithm should encourage learning the true reward function only up to an equivalence class of statistics over the induced behavior."
"We introduce a novel framework that allows active learning policies to focus on learning the true reward function for an alignment metric that captures the functional characteristics we care about when comparing rewards."