Effiziente Batch-Normalisierung in Deep Reinforcement Learning für höhere Stichprobeneffizienz und Einfachheit
CrossQ ist ein leichtgewichtiger Algorithmus für kontinuierliche Steuerungsaufgaben, der sorgfältig Batch-Normalisierung einsetzt und Zielnetze entfernt, um die derzeitige Spitzenleistung in Bezug auf Stichprobeneffizienz zu übertreffen, während er ein niedriges UTD-Verhältnis von 1 beibehält.