Core Concepts
探索と活用のバランスを取るために、エージェントの内部状態を活用して探索のタイミングを決定する新しい手法を提案する。
Abstract
本研究では、探索と活用のバランスを取るために、エージェントの内部状態を活用して探索のタイミングを決定する新しい手法を提案している。
具体的には以下の2つのトリガーを組み合わせている:
価値の不一致(Value Promise Discrepancy: VPD)
エージェントの価値予測と実際の報酬の差を計算し、予測精度の低い状態を探索の対象とする
予測精度の低い状態は、エージェントにとって未知の領域であり、探索の機会となる
状態カウント
ハッシュ関数を使って状態を圧縮し、各状態の訪問回数を記録する
訪問回数の少ない状態を探索の対象とすることで、新しい状態の発見を促進する
これらの2つのトリガーを統一的なホメオスタシス機構によって組み合わせ、探索のタイミングを決定する。
この手法は、従来の探索手法よりも優れた性能を示し、特に難易度の高い探索環境で顕著な効果を発揮することが実験結果から示された。
また、個別のトリガーと組み合わせた効果の分析から、2つのトリガーが相互に補完し合うことで、より効果的な探索が実現できることが明らかになった。
Stats
価値の不一致(VPD)は、エージェントの価値予測と実際の報酬の差を表す指標である。
状態カウントは、ハッシュ関数を使って圧縮した状態の訪問回数を記録する指標である。