本研究では、探索ボーナスが非定常的な報酬分布を定義することで、エージェントの最適化を困難にすることを指摘している。具体的には、カウントベースの報酬、疑似カウント、状態エントロピー最大化などの探索ボーナスは、状態訪問頻度などの動的に変化する十分統計量に依存するため、非定常的な性質を持つ。
この問題に対して、SOFE (Stationary Objectives for Exploration)フレームワークを提案している。SOFEは、状態表現に探索ボーナスの十分統計量を組み込むことで、報酬分布を定常的なものに変換する。これにより、エージェントが定常的な最適化問題を解くことができるようになる。
SOFEは、カウントベースの報酬、疑似カウント、状態エントロピー最大化などの探索ボーナスに適用可能であり、これらの手法の性能を向上させることが示されている。また、SOFEは、大規模な3Dナビゲーション環境や、プロシージャル生成された環境、スパース報酬タスクなど、様々な課題設定で有効性を示している。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문