Core Concepts
L0正則化を使用して深層強化学習ポリシーをスパース化し、報酬の減少なしに効率的な計算資源を実現する。
Abstract
深層強化学習(DRL)は、コンピューターゲームやロボティクスなど幅広いアプリケーションで有望性を示しています。しかし、DRLポリシーの訓練には膨大な計算リソースが必要であり、過学習に陥りやすい密なポリシーが生成されます。本研究では、新しいL0正則化技術を提案し、DRLポリシーをスパース化し、報酬の減少なしに効果的な分解を促進することで、計算資源の削減と過学習の制限が可能であることを示しました。さらに、複数の異なる環境でこの新技術を評価しました。SuperMarioBrosおよびSurROL-Surgical Robot Learning環境では、最大93%のスパース性と70%の圧縮率を達成しました。これらの結果は、L0正則化技術がDRLポリシーのスパース化において有望な手法であることを示唆しています。
Stats
L0正則化技術によりSuperMarioBros 7.1.0環境で93%のスパース性と70%圧縮率が達成された。
SurROL-Surgical Robot Learning環境では36%スパース性と46%圧縮率が実現された。
Quotes
"我々はカートポール-v1, アクロボット-v1, ルナランダー-v2, スーパーマリオブラザーズ-7.1.v0, SurROL-Surgical Robot Learning の5つ異なる環境でL0正則化技術を評価した。"
"最も優れたSparse DQNおよびPPOポリシーはその最大Sparsity時でも報酬に影響せず一貫した性能を発揮した。"