Core Concepts
非エルゴード性のある報酬関数を最適化すると、ほとんど確実に失敗する政策が学習される可能性がある。そのため、報酬の時間平均を最大化するように報酬を変換することで、個々の強化学習エージェントの長期的な成長率を最大化できる。
Abstract
本論文では、強化学習における非エルゴード性の問題について分析しています。
非エルゴード性のある報酬関数を最適化すると、期待値を最大化する政策が学習されるが、これは個々のエージェントの長期的な成長率を最大化するものではない可能性がある。
非エルゴード性のある報酬関数の例として、コイントス実験を紹介しています。この実験では、期待値を最大化する政策を学習すると、ほとんどのエージェントが最終的に失敗してしまう。
非エルゴード性の問題を解決するために、報酬の時間平均を最大化するように報酬を変換する手法を提案しています。この変換により、個々のエージェントの長期的な成長率を最大化できるようになる。
提案する変換手法は、リスク感応型強化学習で用いられる指数変換と関連付けられることを示しています。
提案手法を、カート倒立振子とリーチャーの標準的な強化学習ベンチマーク問題に適用し、その有効性を実証しています。
Stats
初期報酬が100の場合、1000ステップ後の平均報酬は115となるが、ほとんどのエージェントの報酬は0に近くなる。
提案する変換を用いると、1000ステップ後の中央値報酬は約17,517、平均報酬は約956,884となる。
Quotes
"最適化の目的関数を期待値に設定すると、ほとんど確実に失敗する政策が学習される可能性がある。"
"報酬の時間平均を最大化するように報酬を変換することで、個々のエージェントの長期的な成長率を最大化できる。"