Core Concepts
深層強化学習エージェントは、方策パラメータの単一の更新によって広範囲の返還を生み出す、ノイジーな近傍を横断することが分かった。このような近傍の分布的特性を調べることで、方策の質の新たな側面を明らかにできる。
Abstract
本研究では、連続制御タスクにおける返還景観を調査した。特に、深層強化学習アルゴリズムによって発見された方策の近傍に着目した。
方策パラメータの単一の更新によって、広範囲の返還が生み出されるノイジーな近傍が存在することが分かった。
これらの近傍の分布的特性を調べることで、等しい平均返還を持つ方策でも、分散、歪度、左裾確率などの統計量が大きく異なり、質的にも異なる振る舞いを示すことが明らかになった。
失敗する方策の分析から、突発的な報酬の低下が原因であることが分かった。
同一の学習過程から得られた方策は、低返還の谷を持たずに滑らかに接続されることが分かった。
方策の左裾確率を改善する手法を提案し、その有効性を示した。
Stats
同一の学習過程から得られた方策は、低返還の谷を持たずに滑らかに接続される。
同一の学習過程から得られた方策の間では、低返還の谷は存在しない。
Quotes
同一の学習過程から得られた方策は、低返還の谷を持たずに滑らかに接続される。
失敗する方策の分析から、突発的な報酬の低下が原因であることが分かった。