Der Hauptbeitrag dieser Arbeit ist ein Simulations-basierter Algorithmus - der Dual Ensemble Kalman Filter (EnKF) -, um die Lösung stochastischer optimaler Steuerungsprobleme numerisch zu approximieren.
Wir schlagen einen neuartigen gradientenbasierten Online-Optimierungsrahmen vor, um stochastische Programmierungsprobleme zu lösen, die häufig im Kontext von cyber-physischen und robotischen Systemen auftreten. Unser Optimierungsrahmen umfasst sowohl Gradientenabstieg als auch Quasi-Newton-Methoden und bietet eine einheitliche Konvergenzanalyse in einem nicht-konvexen Umfeld. Wir charakterisieren auch den Einfluss von Modellierungsfehlern in der Systemdynamik auf die Konvergenzrate der Algorithmen.
Die First-Fit-Zuweisung ist asymptotisch optimal für den Fall, dass die Artikelgrößen 1 und 2 sein können. Im Grenzwert, wenn die Belegung gegen unendlich geht, konvergiert die Konfiguration der stationären Packung, skaliert mit der Ankunftsrate, zur optimalen Packungskonfiguration, bei der die kleineren Artikel links und die größeren Artikel rechts angeordnet sind, ohne Lücken dazwischen.
Dieser Bericht stellt ein neuartiges Rahmenwerk für die Online-Tiefenreinforcement-Lernsteuerung (ODRLC) stochastischer Warteschlangennetze vor. Das Rahmenwerk kombiniert die Lernfähigkeit neuronaler Netzwerke mit der garantierten Stabilität klassischer Steuerungsverfahren, um die Herausforderungen unbegrenzter Zustandsräume in ODRLC-Umgebungen zu bewältigen.
Unsicherheit ist in vielen Bereichen wie Ingenieurwesen, datengetriebenen Problemen und Entscheidungsfindung allgegenwärtig. Um diese Unsicherheit konservativ zu berücksichtigen, werden Optimierungsmodelle mit Risikomaßen und verwandten Konzepten formuliert und gelöst.
Eine neue Berechnungsmethode für die Lösung von singulären stochastischen Steuerungsproblemen, die durch Anwendungen in der Warteschlangentheorie motiviert sind, wird vorgestellt und anhand verschiedener Beispiele demonstriert.
Die Kernaussage dieses Artikels ist, dass die nicht-asymptotische Leistung des vorgestellten varianzreduzierten proximalen Gradientenverfahrens (VRPG) durch den skalierten Abstand (skaliert mit √N) zwischen den Lösungen des gegebenen Problems und einer bestimmten kleinen Störung des gegebenen Problems - beide unter den gegebenen konvexen Nebenbedingungen gelöst - bestimmt wird. Dabei bezeichnet N die Anzahl der Stichproben. Unter Ausnutzung eines etablierten Zusammenhangs zwischen lokalen minimax-Untergrenzwerten und Lösungen gestörter Probleme zeigen die Autoren, dass das VRPG-Verfahren asymptotisch den bekannten lokalen minimax-Untergrenzwert von Hájek und Le Cam bis auf universelle Konstanten und einen logarithmischen Faktor der Stichprobengröße erreicht.
Wenn der Gradient einer Zielfunktion beim Optimum nicht verschwindet, zeigen stochastische Approximationsverfahren wie Projected Stochastic Gradient Descent, Kiefer-Wolfowitz und Stochastic Frank-Wolfe eine exponentielle Konzentration um das Optimum anstelle der typischen asymptotischen Normalverteilung.
Die Arbeit schlägt eine neue Variante der zweizeitigen stochastischen Approximation vor, die die klassische Ruppert-Polyak-Mittelungstechnik nutzt, um die Operatoren aus ihren Stichproben zu schätzen. Die mittleren quadratischen Fehler der erzeugten Iterationen konvergieren mit einer optimalen Rate von O(1/k) gegen Null, was eine deutliche Verbesserung gegenüber der besten bekannten Rate von O(1/k2/3) darstellt.
Die Arbeit analysiert die Eigenschaften des schweren Schwanzes des Stochastischen Gradientenabstiegs (SGD) im Rahmen stochastischer Rekursionsgleichungen. Es werden offene Fragen aus früheren Arbeiten beantwortet und die Ergebnisse auf allgemeinere Fälle erweitert.