Die Studie untersucht die inhärenten Einschränkungen kontinuierlicher Steuerungspolitiken in sicheren Verstärkungslernsystemen und zeigt, dass in Szenarien mit nicht-einfach zusammenhängenden Beschränkungen keine kontinuierliche Steuerungspolitik optimal und zulässig sein kann. Stattdessen ist eine bifurkative Steuerungspolitik erforderlich, bei der die Aktionsausgabe abrupt auf Änderungen des Systemzustands reagiert.
Die Autoren führen topologische Konzepte wie Pfade, Schleifen und Kontrahierbarkeit ein, um die Existenz von Bifurkationen in sicheren Verstärkungslernsystemen formal zu beweisen. Sie zeigen, dass wenn der Anfangszustandsraum nicht kontrahierbar ist und der Zielzustandsraum kontrahierbar ist, keine zulässige kontinuierliche Steuerungspolitik existiert.
Um diese Herausforderung zu adressieren, schlagen die Autoren den Multimodalen Politikoptimierungs-Algorithmus (MUPO) vor, der eine Gaußmischverteilung als Politikausgabe verwendet, um eine bifurkative Steuerungspolitik zu realisieren. Die experimentellen Ergebnisse zeigen, dass MUPO in der Lage ist, bifurkative Steuerungspolitiken zu erlernen, die Sicherheit in anspruchsvollen Fahrzeugsteuerungsaufgaben gewährleisten, während kontinuierliche Steuerungspolitiken zu unvermeidbaren Beschränkungsverletzungen führen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문