Core Concepts
オフラインリインフォースメント学習エージェントが特定の軌跡の影響を迅速かつ完全に排除できるようにする
Abstract
本論文は、オフラインリインフォースメント学習エージェントの軌跡忘却を可能にする初の実用的なアプローチであるTRAJDELETERを提案する。TRAJDELETERの核心的なアイデアは、軌跡忘却に関連する状態を遭遇したときに、エージェントの性能が低下するように誘導することである。同時に、他の残りの軌跡に対してはエージェントの元の性能を維持する。さらに、TRAJAUDITORと呼ばれる簡単かつ効率的な方法を導入し、TRAJDELETERが特定の軌跡の影響をオフラインリインフォースメント学習エージェントから完全に排除できるかどうかを評価する。6つのオフラインリインフォースメント学習アルゴリズムと3つのタスクに対する広範な実験により、TRAJDELETERは完全に再学習する時間の約1.5%しか必要とせず、平均94.8%の対象軌跡を効果的に忘却しつつ、実際の環境相互作用後も良好なパフォーマンスを維持することが示された。
Stats
TRAJDELETERは完全に再学習する時間の約1.5%しか必要としない
TRAJDELETERは平均94.8%の対象軌跡を効果的に忘却する
TRAJDELETERは実際の環境相互作用後も良好なパフォーマンスを維持する
Quotes
"オフラインリインフォースメント学習エージェントが特定の軌跡の影響を迅速かつ完全に排除できるようにする"
"TRAJDELETERの核心的なアイデアは、軌跡忘却に関連する状態を遭遇したときに、エージェントの性能が低下するように誘導すること"
"TRAJAUDITORは簡単かつ効率的な方法を導入し、TRAJDELETERが特定の軌跡の影響をオフラインリインフォースメント学習エージェントから完全に排除できるかどうかを評価する"