Die Studie konzentriert sich auf zwei wichtige Probleme im Zusammenhang mit der Anwendung der Offline-Modell-basierten Optimierung auf reale industrielle Steuerungsprobleme. Das erste Problem ist, wie man ein zuverlässiges probabilistisches Modell erstellt, das die in verrauschten Industriedaten vorhandene Dynamik genau erfasst. Das zweite Problem ist, wie man Steuerparameter zuverlässig optimieren kann, ohne aktiv Rückmeldungen von Industriesystemen einzuholen.
Um diese Herausforderungen zu bewältigen, wird ein neuartiges cGAN-Ensemble-basiertes Ersatzmodell mit einer unsicherheitsgewichteten Belohnungsbestrafungskomponente vorgestellt. Das Ensemble von cGANs modelliert die aleatorische Unsicherheit im Industriesystem mit minimalen Annahmen über die verborgene Dynamik. Die Unsicherheitsgewichtung vermeidet eine Überschätzung der Belohnungen für Eingaben, die außerhalb der Verteilung der historischen Daten liegen.
Umfangreiche Experimente in zwei repräsentativen Fällen, einer diskreten Steuerung und einer kontinuierlichen Steuerung, zeigen, dass die vorgeschlagene Methode mehrere wettbewerbsfähige Baselines in Bezug auf die Zuverlässigkeit und Leistung der erlernten Steuerungspolitik übertrifft.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Cheng Feng alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2205.07250.pdfDomande più approfondite