非エルゴード性のある報酬関数を最適化すると、ほとんど確実に失敗する政策が学習される可能性がある。そのため、報酬の時間平均を最大化するように報酬を変換することで、個々の強化学習エージェントの長期的な成長率を最大化できる。