Der Bericht behandelt die Herausforderungen der Anwendung von Tiefenreinforcement-Lernen (DRL) für die Steuerung stochastischer Warteschlangennetze (SQN). Traditionelle DRL-Methoden sind auf Offline-Simulationen oder statische Datensätze angewiesen, was ihre Anwendung in der Praxis einschränkt.
Um diese Einschränkungen zu überwinden, schlagen die Autoren ein Online-Tiefenreinforcement-Lernsteuerungs-Rahmenwerk (ODRLC) vor, bei dem ein intelligenter Agent direkt mit einer realen Umgebung interagiert und daraus eine optimale Steuerungspolitik lernt.
SQNs stellen eine Herausforderung für ODRLC dar, da die Warteschlangen im Netzwerk unbegrenzt sind, was zu einem ebenfalls unbegrenzten Zustandsraum führt. Dies ist problematisch für neuronale Netzwerke, die schlecht in der Extrapolation zu unbekannten Zuständen sind.
Um diese Herausforderung zu bewältigen, schlagen die Autoren ein interventionsgestütztes Rahmenwerk vor, das strategische Eingriffe von bekannten stabilen Politiken nutzt, um die Warteschlangenlängen begrenzt zu halten. Dieses Rahmenwerk kombiniert die Lernfähigkeit neuronaler Netzwerke mit der garantierten Stabilität klassischer Steuerungsverfahren für SQNs.
Die Autoren führen ein Verfahren zur Gestaltung dieser interventionsgestützten Politiken ein, um die Stabilität des Netzwerks sicherzustellen. Außerdem erweitern sie grundlegende DRL-Theoreme für interventionsgestützte Politiken und entwickeln zwei praktische Algorithmen speziell für die ODRLC von SQNs. Schließlich zeigen Experimente, dass die vorgeschlagenen Algorithmen sowohl klassische Steuerungsansätze als auch frühere ODRLC-Algorithmen übertreffen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jerrod Wigmo... pada arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.04106.pdfPertanyaan yang Lebih Dalam