Core Concepts
強化学習モデルの最適な行動だけでなく、様々な端的な状況における行動を示すことで、モデルの本質的な振る舞いを理解することができる。
Abstract
本研究では、強化学習モデルの解釈可能性を高めるため、「Revealing Evolutionary Action Consequence Trajectories (REACT)」を提案している。従来の強化学習モデルの評価は最適な行動に基づいていたが、REACT では、初期状態に擾乱を加えることで、様々な端的な状況における行動を生成し、それらを進化的最適化によって多様化させる。
具体的には、以下の手順で行う:
初期状態を擾乱し、その状態から強化学習モデルの行動を観察する
観察された行動軌跡の多様性と不確実性を評価する指標を定義し、それを最大化するように進化的最適化を行う
最終的に得られた多様な行動軌跡を分析することで、強化学習モデルの本質的な振る舞いを理解する
この手法により、最適な行動だけでなく、様々な端的な状況における行動を示すことができ、強化学習モデルの解釈可能性が向上する。実験では、平坦なグリッドワールドや穴のあるグリッドワールド、連続的なロボット制御タスクなどで評価し、提案手法の有効性を示している。
Stats
平坦なグリッドワールドでは、REACT生成の軌跡の最終リターンの範囲が広く、分布も均一であり、ランダムな初期状態に比べて多様性が高い
穴のあるグリッドワールドでは、REACT生成の軌跡がより広範囲の状態空間をカバーしており、ランダムな初期状態では捉えられない失敗ケースも検出できている
ロボット制御タスクでは、学習の進行に伴い、REACT生成の軌跡の最終リターンの分散が大きくなり、過剰適合の兆候が見られる