核心概念
本文探討了強化學習代理在程序性迷宮環境中訓練後所表現出的目標錯誤泛化現象,並試圖通過多種可解釋性技術理解其內部機制。
摘要
強化學習代理的機械可解釋性:對目標錯誤泛化的案例研究
這篇研究論文深入探討了強化學習(RL)代理的機械可解釋性,特別關注於代理在程序性迷宮環境中訓練後所表現出的目標錯誤泛化現象。
本研究旨在理解強化學習代理在解決迷宮任務時如何做出決策,並探討其內部機制。
研究重點關注代理在訓練過程中發展出的目標錯誤泛化現象,即代理傾向於採取特定導航策略,即使這些策略與實際目標不符。
研究人員使用預先訓練好的Impala模型,該模型在程序生成的迷宮環境中進行訓練。
為了理解模型的決策過程,研究採用了多種可解釋性技術,包括:
**特徵映射:**用於視覺化神經網絡不同層級的神經元如何響應迷宮環境中的基本特徵,例如牆壁、路徑、目標(奶酪)和代理(老鼠)。
**顯著性映射:**用於識別輸入圖像中對模型預測貢獻最大的區域,揭示模型在導航決策過程中關注的重點區域。
**互動式分佈著色和n維散點圖:**用於分析和解釋更深層網絡層中的抽象特徵表示,幫助理解模型如何表示和處理迷宮環境信息。