Die Studie präsentiert einen Reinforcement Learning-Ansatz zur Optimierung des Betriebs eines Abfallsortierzentrums. Das Problem ist komplex, da es darum geht, die konkurrierenden Ziele von Betriebssicherheit, Volumenoptimierung und Energieeinsparung auszubalancieren.
In der ersten Phase wird ein PPO-Agent auf einer vereinfachten Version des Problems trainiert, um grundlegende Verhaltensweisen zu erlernen. Anschließend wird der Agent schrittweise mit zunehmend komplexeren Umgebungsdynamiken und Belohnungsfunktionen konfrontiert, um seine Fähigkeiten zu verfeinern. Die Belohnungsfunktion wurde sorgfältig gestaltet, um den Agent auf die richtigen Verhaltensweisen hinzulenken.
Der so trainierte PPO-Agent zeigt im Vergleich zu einem Baseline-Agenten und einem manuell erstellten Analyseagenten deutlich bessere Ergebnisse. Er kann die Sicherheit deutlich erhöhen, indem er fast keine Überschreitungen der Volumengrenze mehr zulässt, und gleichzeitig Energie sparen, indem er die Nutzung der Verarbeitungseinheiten optimiert.
Das vorgestellte Curriculum-Lernverfahren erweist sich als effektiv, um komplexe, mehrkriterienfähige Entscheidungsaufgaben in industriellen Umgebungen zu lösen, bei denen Sicherheit, Effizienz und Anpassungsfähigkeit entscheidend sind.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor