Die Studie konzentriert sich auf zwei wichtige Probleme im Zusammenhang mit der Anwendung der Offline-Modell-basierten Optimierung auf reale industrielle Steuerungsprobleme. Das erste Problem ist, wie man ein zuverlässiges probabilistisches Modell erstellt, das die in verrauschten Industriedaten vorhandene Dynamik genau erfasst. Das zweite Problem ist, wie man Steuerparameter zuverlässig optimieren kann, ohne aktiv Rückmeldungen von Industriesystemen einzuholen.
Um diese Herausforderungen zu bewältigen, wird ein neuartiges cGAN-Ensemble-basiertes Ersatzmodell mit einer unsicherheitsgewichteten Belohnungsbestrafungskomponente vorgestellt. Das Ensemble von cGANs modelliert die aleatorische Unsicherheit im Industriesystem mit minimalen Annahmen über die verborgene Dynamik. Die Unsicherheitsgewichtung vermeidet eine Überschätzung der Belohnungen für Eingaben, die außerhalb der Verteilung der historischen Daten liegen.
Umfangreiche Experimente in zwei repräsentativen Fällen, einer diskreten Steuerung und einer kontinuierlichen Steuerung, zeigen, dass die vorgeschlagene Methode mehrere wettbewerbsfähige Baselines in Bezug auf die Zuverlässigkeit und Leistung der erlernten Steuerungspolitik übertrifft.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies