Core Concepts
提案されたIBCBは、未経験者から経験豊富な専門家への行動進化履歴から効率的に学習するための統一フレームワークを提供します。
Abstract
この論文では、IBCB(逆バッチコンテキストバンディット)が提案され、未経験者から経験豊富な専門家への行動進化履歴から効率的に学習する方法が示されています。IBCBは、決定論的およびランダム化されたバンディットポリシーの両方に対応し、単純な二次計画問題を使用してアクセスできない報酬から学習します。実験結果は、IBCBが合成および実世界のデータセットで優れたパフォーマンスを達成し、分布外および矛盾したデータシナリオにも堅牢性を示すことを示しています。
INTRODUCTION
伝統的な模倣学習(IL)は専門家の意思決定ポリシーを学習することに焦点を当てます。
IBCBは未経験者から経験豊富な専門家への行動進化履歴から効率的に学習するための新しい手法です。
RELATED WORKS
コンテキストバンディットはオンライン学習で頻繁に使用されます。
既存のILアプローチは専門家の行動が最適であると仮定しています。
PROBLEM FORMULATION
BCB設定内で逆バンディット問題を説明します。
IBCBは大規模な制約付き二次最適化問題として逆バンディット問題を解決します。
EXPERIMENTS SETTINGS
合成および実世界のデータセットでIBCBが他のベースラインよりも高いパフォーマンスを達成しました。
IBCBは実世界でも高い効率で動作することが示されました。
Stats
IBCBは未経験者から経験豊富な専門家への行動進化履歴から効率的に学習します。