探索ボーナスは非定常的な報酬分布を定義するため、エージェントの最適化を困難にする。SOFE (Stationary Objectives for Exploration)は、報酬分布の十分統計量を状態表現に組み込むことで、この非定常性を解決し、探索行動の最適化を促進する。