Die Studie untersucht die inhärenten Einschränkungen kontinuierlicher Steuerungspolitiken in sicheren Verstärkungslernsystemen und zeigt, dass in Szenarien mit nicht-einfach zusammenhängenden Beschränkungen keine kontinuierliche Steuerungspolitik optimal und zulässig sein kann. Stattdessen ist eine bifurkative Steuerungspolitik erforderlich, bei der die Aktionsausgabe abrupt auf Änderungen des Systemzustands reagiert.
Die Autoren führen topologische Konzepte wie Pfade, Schleifen und Kontrahierbarkeit ein, um die Existenz von Bifurkationen in sicheren Verstärkungslernsystemen formal zu beweisen. Sie zeigen, dass wenn der Anfangszustandsraum nicht kontrahierbar ist und der Zielzustandsraum kontrahierbar ist, keine zulässige kontinuierliche Steuerungspolitik existiert.
Um diese Herausforderung zu adressieren, schlagen die Autoren den Multimodalen Politikoptimierungs-Algorithmus (MUPO) vor, der eine Gaußmischverteilung als Politikausgabe verwendet, um eine bifurkative Steuerungspolitik zu realisieren. Die experimentellen Ergebnisse zeigen, dass MUPO in der Lage ist, bifurkative Steuerungspolitiken zu erlernen, die Sicherheit in anspruchsvollen Fahrzeugsteuerungsaufgaben gewährleisten, während kontinuierliche Steuerungspolitiken zu unvermeidbaren Beschränkungsverletzungen führen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Wenjun Zou,Y... pada arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12847.pdfPertanyaan yang Lebih Dalam