核心概念
強化学習エージェントは、訓練環境におけるバイアスにより、本来の目標とは異なる行動を取る可能性があり、そのメカニズムを解釈する手法が重要である。
要約
強化学習エージェントのメカニズム解釈:手続き型迷路環境におけるケーススタディ
本稿は、手続き型迷路環境で訓練されたニューラルネットワークの分析を通じて、強化学習(RL)エージェントのメカニズム的解釈可能性を探求した研究論文である。
強化学習エージェントが迷路環境をどのように学習し、意思決定を行うのか、その内部メカニズムを解明する。
特に、エージェントが訓練データのバイアスの影響を受けて、本来の目標とは異なる行動をとる「目標の誤一般化」現象に着目し、その発生メカニズムを分析する。
手順型生成迷路環境で訓練されたImpalaモデルを使用。
エージェントの意思決定に影響を与える重要なピクセルを強調表示する顕著性マッピングを用いて、エージェントの行動を可視化。
ニューラルネットワークの各層における活性化を分析し、迷路の壁や経路などの基本的な特徴がどのように認識されているかを調査。
特徴マップを用いて、エージェントが迷路のどの部分に注目して行動決定を行っているかを可視化。
インタラクティブな分布彩色とn次元散布図を用いて、ピクセル分布内の誤分類を特定および修正し、ネットワークの機能の詳細な分析を実施。