Die Studie präsentiert einen Reinforcement Learning-Ansatz zur Optimierung des Betriebs eines Abfallsortierzentrums. Das Problem ist komplex, da es darum geht, die konkurrierenden Ziele von Betriebssicherheit, Volumenoptimierung und Energieeinsparung auszubalancieren.
In der ersten Phase wird ein PPO-Agent auf einer vereinfachten Version des Problems trainiert, um grundlegende Verhaltensweisen zu erlernen. Anschließend wird der Agent schrittweise mit zunehmend komplexeren Umgebungsdynamiken und Belohnungsfunktionen konfrontiert, um seine Fähigkeiten zu verfeinern. Die Belohnungsfunktion wurde sorgfältig gestaltet, um den Agent auf die richtigen Verhaltensweisen hinzulenken.
Der so trainierte PPO-Agent zeigt im Vergleich zu einem Baseline-Agenten und einem manuell erstellten Analyseagenten deutlich bessere Ergebnisse. Er kann die Sicherheit deutlich erhöhen, indem er fast keine Überschreitungen der Volumengrenze mehr zulässt, und gleichzeitig Energie sparen, indem er die Nutzung der Verarbeitungseinheiten optimiert.
Das vorgestellte Curriculum-Lernverfahren erweist sich als effektiv, um komplexe, mehrkriterienfähige Entscheidungsaufgaben in industriellen Umgebungen zu lösen, bei denen Sicherheit, Effizienz und Anpassungsfähigkeit entscheidend sind.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Abhijeet Pen... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02577.pdfYêu cầu sâu hơn