Skaleninvariante Gradientenaggregation für eingeschränktes Multi-Objective Reinforcement Learning
Die vorgeschlagene Methode CoMOGA konvergiert zu einer lokalen Pareto-optimalen Richtlinie und übertrifft Baseline-Methoden in Bezug auf die Abdeckung des CP-Fronts und die Einhaltung von Einschränkungen.