深層強化学習(DRL)は、コンピューターゲームやロボティクスなど幅広いアプリケーションで有望性を示しています。しかし、DRLポリシーの訓練には膨大な計算リソースが必要であり、過学習に陥りやすい密なポリシーが生成されます。本研究では、新しいL0正則化技術を提案し、DRLポリシーをスパース化し、報酬の減少なしに効果的な分解を促進することで、計算資源の削減と過学習の制限が可能であることを示しました。さらに、複数の異なる環境でこの新技術を評価しました。SuperMarioBrosおよびSurROL-Surgical Robot Learning環境では、最大93%のスパース性と70%の圧縮率を達成しました。これらの結果は、L0正則化技術がDRLポリシーのスパース化において有望な手法であることを示唆しています。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Vikram Goddl... pada arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06313.pdfPertanyaan yang Lebih Dalam