Sicherheitsgewährleistung durch Bifurkation der Steuerungspolitik in der sicheren Verstärkungslernung
In sicheren Verstärkungslernsystemen ist es notwendig, eine bifurkative Steuerungspolitik zu verwenden, um Sicherheit und Optimalität zu gewährleisten, da kontinuierliche Steuerungspolitiken in Szenarien mit komplexen Beschränkungen zu unvermeidlichen Verletzungen der Beschränkungen führen können.