Effiziente Robustheit gegenüber dualer Störung in niedrigrangigen MDPs
Eine neue Robustheitskonzeption, die sowohl Unsicherheiten in den Merkmalen als auch in den Faktoren berücksichtigt, wird eingeführt, um die Effizienz und Skalierbarkeit robuster Verstärkungslernung in niedrigrangigen MDPs zu verbessern.