本論文では、報酬の誤定義の問題を理解し、解決するための「期待値アラインメント(EAL)」フレームワークを提案する。EALフレームワークは、ユーザーの期待と報酬関数の関係を明示的に捉え、報酬の誤定義の原因を分析する。
具体的には、ユーザーの期待を状態の到達頻度で表現し、ユーザーが報酬関数を設計する過程を形式化する。この枠組みに基づき、報酬の誤定義が発生する可能性を示し、単一の「真の」報酬関数を見つけることの限界を明らかにする。
さらに、EALフレームワークに基づいて、ユーザーの期待に合致する方策を効率的に見つけるための対話型アルゴリズムを提案する。このアルゴリズムは、ユーザーとの対話を通じて、期待と報酬関数のミスアラインメントを特定し、解決する。
提案手法は、標準的なMDP ベンチマークタスクで評価され、既存手法と比較して、計算効率性、ユーザーへの負荷、期待の充足度の面で優れた性能を示す。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor