Optimale Sparsifikation von DRL-Policies durch L0-Norm-Regularisierung für effizientes Deep Reinforcement Learning.