深層強化学習(DRL)は、コンピューターゲームやロボティクスなど幅広いアプリケーションで有望性を示しています。しかし、DRLポリシーの訓練には膨大な計算リソースが必要であり、過学習に陥りやすい密なポリシーが生成されます。本研究では、新しいL0正則化技術を提案し、DRLポリシーをスパース化し、報酬の減少なしに効果的な分解を促進することで、計算資源の削減と過学習の制限が可能であることを示しました。さらに、複数の異なる環境でこの新技術を評価しました。SuperMarioBrosおよびSurROL-Surgical Robot Learning環境では、最大93%のスパース性と70%の圧縮率を達成しました。これらの結果は、L0正則化技術がDRLポリシーのスパース化において有望な手法であることを示唆しています。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Vikram Goddl... alle arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06313.pdfDomande più approfondite